ыллатыы ЛАМ 
| Ouantit ative 
месса 


北京 大 学 考古 文博 学 院 考古 学 系列 教材 之 一 


FRR | 
Q dež JZ 出 版 社 


UNIVERSITY 


本 书 是 介绍 定量 方法 应 用 于 考古 研究 的 教科 书 ;适用 二 考古 3 科技 考古 和 文物 保护 等 专业 的 
学 生 。 全 书 分 上 下 两 篇 ， 寺 篇 介绍 基础 统计 学 ， 下 篇 介绍 多 元 统计 方法 

阅读 本 书 不 要 求 读者 有 微 积分 知识 。 在 讲解 统计 学 思想 . 原理 、 方法 和 技术 以 及 解读 分 析 结 
ЖЕ, 作者 考虑 到 考古 学 生 的 数学 基础 ;尽量 做 到 深入 淡出 、 放 序 前 进 ; 并 主要 通过 考古 研究 的 
实例 、 特 别 是 中 国 考古 研究 的 实例 进行 。 这 便于 考古 学 生 的 理解 和 接受 ; 并 激发 对 考古 资料 定量 
思考 的 兴趣 。 学 以 致 用 是 写作 本 书 的 指导 原则 , 除 通过 考古 实例 来 讲解 统计 技术 外 ”作者 还 涉及 
T SPSS 统计 软件 的 学 习 和 使 用 。 

作者 长 期 从 事 定量 考古 学 的 教学 和 研究 ,本 书 较 全 面 地 总 结 了 和 斗 多 年 来 我 国 考 十 学 定量 研究 
的 进展 ， 是 国内 第 一 本 介绍 定量 考古 学 的 参考 书 。 
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陈 铁 梅 ,北京 大 学 考古 系 教授 ,博士 生 导 师 , 1959 年 毕业 于 苏联 列宁 格 勒 大 学 物理 
Ж ,1973 一 1999 年 任 考 古 系 科技 考古 实验 室 主任 ,长 期 从 事 科 技 考古 和 定量 考古 的 教学 
和 研究 。 主 要 研究 方向 为 : 碳 十 四 、 不 平衡 铀 系 和 电子 顺 磁 共 振 测 年 , 古 陶瓷 的 产地 湖 源 
研究 和 考古 资料 的 定量 研究 。 发 表 论 文 近 200 篇 ,合作 或 主编 专著 和 译 著 各 1 部 ,为 建立 
我 国 的 史前 年 代 学 ,特别 是 古人 类 和 旧 石 器 考古 年 代 学 ,为 推进 我 国 考古 学 研究 的 数量 
化 作出 贡献 。 曾 获 国家 科技 进步 三 等 奖 , 国 家 教委 和 中 国 社会 科学 院 科研 成 果 一 等 奖 。 
历任 我 国 科技 考古 学 会 副 理事 长 ,第 四 纪 科 学 研究 会 理事 ，Quaternary Science 
Review-Geochronology 和 《考古 科学 和 文物 研究 ) 等 杂志 编 委 。 荣 誉 职称 有 德国 国家 考古 研 
究 所 通讯 成 员 等 。 
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陈 铁 梅 教授 积 二 十 多 年 从 事 定量 考古 学 的 研究 心得 和 教学 经 验 , 老 当 益 壮 ,以 惊人 
的 珊 力 写成 了 《定量 考古 学 ?一 书 。 他 拿 着 厚 厚 的 一 玖 书稿 给 我 , 命 我 作 序 。 我 虽然 不 慌 
数学 ,看 他 的 书稿 也 有 些 吃力 ,但 仅 赁 一 点 数学 常识 也 知道 定量 分 析 在 考古 学 研究 中 的 
重要 价值 ,所 以 很 乐意 在 这 里 写 儿 旬 话 。 | 

在 人 文科 学 中 ,考古 学 是 应 用 自然 科学 方法 和 数学 方法 最 多 的 一 个 学 科 。 考 古 学 是 
通过 实物 资料 来 研究 历史 的 。 所 有 实物 资料 都 是 有 形 和 可 以 量度 的 , 量 的 关系 万 是 各 种 
事物 之 间 十 分 重要 的 关系 。 通 过 量 的 关系 的 考察 可 以 揭示 事物 的 本 质 属 性 和 特征 ,这 是 
定量 考古 学 得 以 产生 和 发 展 的 客观 基础 。 由 于 考古 学 研究 的 人 类 历史 跨越 数 百 万 年 ,在 
这 漫长 的 岁月 中 ,反映 人 类 社会 历史 的 实物 遗存 不 断 积累 又 不 断 遭 受 自 然 与 人 为 的 破 
坏 。 考 十 学 家 的 任务 就 是 根据 残 剩 下 来 的 实物 遗存 来 尽 可 能 地 再 现 已 经 消逝 的 历史 。 
实际 上 这 只 是 一 个 不 断 追 求 的 学 科 的 目标 ,要 真正 做 到 谈何容易 ! 可 是 考古 学 家 和 相关 
的 学 者 就 是 那么 钢 而 不 会 ,和 孜孜以求 ,运用 各 种 方法 ,包括 数学 方法 来 进行 探索 。 残 晋 的 
实物 遗存 绝 大 多 数 已 经 掩埋 在 地 下 ,项 要 考古 学 家 去 寻找 。 寻 找 固 然 要 有 一 定 的 方法 ， 
更 需要 一 个 过 程 ,一 个 永 无 止境 的 过 程 。 你 不 可 能 把 所 有 实物 遗存 都 找到 ,找到 的 部 分 
跟 实 际 存在 的 部 分 是 个 什么 关系 ? 这 里 便 有 一 个 概率 问题 。 实 际 存在 的 部 分 跟 被 长 期 
破坏 之 前 原本 应 有 的 部 分 又 是 什么 关系 ? 这 也 有 一 个 概率 问题 。 根 据 找 到 的 遗址 固然 
可 以 研究 某 些 历史 问题 ,但 要 了 解 得 清楚 一 些 或 真实 一 些 就 必须 发 气 。 你 不 可 能 把 所 有 
找到 的 遗址 都 发 据 完 ,选择 哪些 遗址 进行 发 掘 以 及 发 据 和 遗址 的 哪个 部 位 ,在 一 定 程度 上 
说 是 随机 的 。 发 掘 的 结果 能 在 多 大 程度 上 反映 遗址 的 整体 情况 ,还 是 有 一 个 概率 问题 。 

在 整理 资料 进行 器 物 排队 和 分 期 研究 时 也 常常 遇 到 概率 问题 。 比 如 有 两 种 崇 物 共 
存 , 我 们 说 二 者 有 同时 的 可 能 性 ,如 果 有 两 次 、 三 次 共存 ,就 意味 着 同时 的 可 能 性 比较 大 。 
如 果 共 存 的 次 数 再 多 一 些 , 意 味 着 同时 的 可 能 性 更 大 一 些 ,或 者 用 很 可 能 、 十 分 可 能 、 非 
常 可 能 等 词语 来 加 以 说 明 。 共 存 的 次 数 达 到 一 定数 目 ,我 们 就 说 二 者 可 视 为 同时 或 就 是 
同时 。 这 当然 也 是 一 个 概率 问题 。 我 们 用 的 词语 再 丰富 也 总 是 有 限 的 ,不 够 确切 的 。 如 
果 用 数学 敢 辑 来 因 考 并 用 数学 语言 来 表述 就 会 明确 得 多 。 天 气 预报 说 今天 有 两 ,降水 概 
ж Ж 80% ,而 不 说 有 很 大 可 能 性 ,就 是 这 个 道理 。 不 过 我 们 要 明白 的 是 ,概率 表述 再 明确 
也 是 统计 性 的 而 不 是 绝对 的 。 降 水 概率 80% 自然 不 是 降 80% 的 水 。 回 过 来 说 用 共存 关 
系 来 判断 间 时 性 的 问题 。 如 果 有 三 件 或 更 多 的 器 物 共 存 , 只 要 重复 一 两 次 , 任 经 验 就 可 
以 知道 它们 同时 的 可 能 性 非 党 大。 共存 的 器 物 越 多 ,需要 重复 的 次 数 越 少 。 为 什么 会 是 
这 样 , 道 理 很 难得 说 清楚 ,可 不 可 以 用 概率 统计 来 加 以 说 明 呢 ! 

其 实 考 十 学 研究 中 需要 运用 数学 的 地 方 多 得 很 ,方法 也 不 止 概率 统计 一 项 。 所 有 实 
物 遗 存 都 需要 测量 。 大 到 遗址 的 形状 大 小 及 其 与 其 他 遗址 的 关系 ,遗址 中 房屋 、 灰 坑 、 害 
Х.Ж йж, 壕沟、 道路 等 等 的 形状 大 小 、 分 布 状况 及 相互 关系 ,小 至 一 件 器 物 的 形状 、 
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大 小 、 厚 薄 和 名 种 比例 关系 ,人 体 和 动物 骨骼 测量 中 的 各 种 数据 和 比例 关系 等 等 ,都 可 能 
并 需要 用 数字 、 图 表 和 必要 的 运算 来 加 以 说 明 。 许 多 难以 直观 做 出 判断 的 事例 ,通过 数 
学 演算 就 可 以 有 比较 清晰 的 认识 。 问 题 在 于 并 不 是 所 有 数量 关系 都 可 以 通过 初级 的 四 
则 演算 就 解决 问题 的 ,这 就 需要 考古 学 家 学 一 点 数学 ,学 一 点 数量 统计 的 知识 。 现 在 已 
经 有 一 些 学 者 试图 用 数学 方法 来 研究 考古 学 中 的 一 些 问题 。 例 如 对 某 些 器 物 的 类 型 学 
研究 ,对 史家 等 地 董 昔 分 期 的 研究 ,区 域 调 查 中 对 大 量 和 遗址 及 其 关系 的 多 角度 研究 ,通过 
对 淘 资 器 或 青 钢 器 化 学 元 素 包 括 微 量 元 素 组 成 的 数值 变量 来 追 潮 原 料 产地 的 研究 等 等 ， 
都 进行 过 一 些 有 益 的 尝试 。 在 体质 人 类 学 、 动 物 考古 学 \ 植 物 考古 学 和 地 质 考古 学 的 研 
究 中 更 是 离 不 开 数 学 方法 。 这 些 研 究 有 的 明显 深化 了 原本 的 认识 ,有 的 更 是 开拓 了 新 的 
研究 领域 。 但 也 有 一 些 研 究 与 传统 方法 得 出 的 结论 不 一 致 ,甚至 与 常识 相悖。 出 现 这 种 
情况 可 能 有 不 同 的 原因 ,而 大 多 数 情 况 是 对 考古 资料 的 性 质 认识 不 清 ,运算 的 前 置 条 件 
设置 不 恰当 ,或 者 不 适 于 用 某 种 数学 方法 来 处 理 。 因 此 一 些 考古 学 上 的 问题 能 不 能 用 数 
学 方法 处 理 ,或 者 用 何 种 数学 方法 来 处 理 , 也 是 考古 学 研究 本 身 的 问题 。 本 书 作 者 一 再 
呼吁 考古 学 家 要 学 习 和 掌握 基本 的 数学 方法 , 正 是 看 到 了 问题 的 症结 所 在 而 发 出 的 肺腑 
之 言 。 

本 书 针对 大 多 数 考古 学 者 不 其 熟悉 数学 方法 的 情况 ,从 基本 概念 讲 起 ,由 浅 入 深 地 
讲述 考古 资料 定量 研究 的 各 种 方法 。 每 种 方法 又 着 重 讲述 基本 原理 、 应 用 范围 和 应 用 方 
法 , 讲 明 应 用 这 些 方法 的 前 提 条 件 , 同 时 说 明 要 正确 解读 定量 分 析 的 结果 。 所 有 这 些 都 
结合 了 考古 学 研究 中 的 实例 , 读 起 来 不 觉得 枯燥 和 深奥 难 懂 , 反 而 令 人 有 似曾相识 或 局 
然 大 悟 的 感觉 ,能够 引发 人 们 运用 数学 方法 的 兴趣 和 自觉 性 。 作 为 一 部 专著 ,本 书 很 好 
地 总 结 了 我 国定 量 考古 学 的 进展 的 情况 、 取 得 的 成 果 和 存在 的 问题 ,同时 介绍 了 国外 的 
有 关 情 况 以 供 参考 ;内 容 充实 , 敢 辑 严密 ,图 表 配 合 也 很 好 ,在 国内 是 第 一 部 全 面 论述 定 
量 考古 学 的 力作 。 

作为 一 部 教科 书 ,本 书 比较 全 面 地 讲述 了 定量 考古 学 的 基本 原理 和 方法 ,包括 使 用 
相关 软件 的 方法 ,由 浅 入 深 ,循序 渐进 , 书 末 还 附 有 相关 的 习题 ,非常 切合 高 等 学 校 的 孝 
学 和 有 一 定 基础 的 考古 人 员 的 自学 之 用 。 我 希望 本 所 的 出 版 将 有 助 于 提高 考古 专业 的 
定量 考古 教学 水 平 , 间 时 吸引 更 多 的 考古 人 员 学 习 和 掌握 定量 考古 学 的 方法 ,促进 我 国 
定量 考古 学 的 发 展 ,最 终 为 提高 我 国 考古 学 研究 的 水 平 而 作出 贡献 。 


严 文 明 
2005 年 7 月 
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20 世纪 后 半 叶 以 来 ,社会 科学 和 人 文科 学 的 诸 学 科 愈益 广泛 地 应 用 定量 研究 和 统计 
学 方法 。80 年 代 晚 期 开始 ,北京 大 学 和 吉林 大 学 考古 系 先后 为 高 年 级 本 科 生 和 研究 生 开 
设 了 定量 考古 学 和 计算 机 考古 的 课程 ,这 也 是 为 了 与 国际 考古 教学 的 接轨 。 本 人 常年 讲 
授 定 量 考古 学 课程 ,其 苗 于 缺乏 中 文 的 教材 ,学 生 只 能 参考 教育 统计 学 、 社 会 统计 学 等 其 
他 学 科 的 相关 教材 。 但 是 考古 系 学 生 往 往 是 通过 中 国 考古 学 研究 应 用 定量 方法 的 实际 
例子 ,才能 较 容 易 地 理解 和 接受 各 种 定量 方法 的 原理 ,了 解 它们 在 考古 研究 中 的 功能 和 
潜力 。 

十 多 年 来 在 我 国 考古 学 的 文献 中 陆续 可 见 一 些 对 考古 资料 进行 定量 研究 的 尝试 和 
成 果 发 表 , 如 雨 台 山花 葬 的 排序 ,史家 墓地 的 分 期 ,河南 早 商 前 后 陶 豆 的 分 期 , 侯 马 乔 村 
墓地 陶器 分 期 ,有 胡 铀 戈 的 回归 断代 以 及 两 周 随葬 青铜 容器 的 组 合 研究 等 等 。 特 别 在 像 
苦 久 河 流域 和 赤峰 地 区 的 考古 区 域 调查 中 ,数学 方法 已 成 为 处 理 大 容量 考古 资料 的 主要 
手段 。 这 些 情况 反映 了 数量 观念 ,概率 统计 观念 正 逐 步 地 融入 我 国 的 考古 研究 中 。 这 些 
进展 也 应 该 适当 总 结 ,并 介绍 给 考古 工作 者 。 此 外 多 种 自然 科学 方法 与 考古 学 的 结合 ， 
也 必然 带 进 自 然 科 学 所 固有 的 定量 概念 和 定量 研究 方法 。 例 如 用 元 素 组 成 和 同位 素 组 
成 追溯 陶 次 器 的 产地 和 青铜 器 矿 源 的 研究 ,就 离 不 开 多 元 统计 分 析 方法 。 动 物 考古 、 植 
物 考古 的 资料 分 析 中 广泛 应 用 统计 学 的 概念 与 方法 。 考 古 工作 者 ,特别 是 年 轻 的 考古 工 
作者 应 该 对 这 些 定量 研究 方法 的 原理 有 所 了 解 并 逐步 应 用 。 

编写 本 书 的 目的 除 作为 考古 系 的 教材 外 ,也 试图 总 结 近 年 来 我 国 考古 学 定量 研究 的 
进展 ,为 考古 工作 者 了 解 定量 考古 学 提供 一 本 参考 书 。 本 书 的 内 容 分 为 上 下 两 篇 ,上 篇 
介绍 概率 统计 学 基础 ,下 篇 介绍 几 种 多 元 统计 方法 。 学 以 致 用 是 编写 本 书 的 原则 ,因此 
数学 内 容 的 论述 尽 可 能 结合 我 国 考古 研究 的 实例 。 作 者 意识 到 本 书 的 读者 主要 是 对 数 
学 不 十 分 熟悉 的 考古 人 员 ,因此 在 编写 中 不 刻意 追求 严格 的 数学 推导 ,重点 在 于 介绍 各 
种 定量 方法 的 基本 思想 和 原理 、 功 能 ,特别 是 了 解 正确 运用 这 些 方法 的 前 提 以 及 对 定量 
分 析 结果 的 正确 解读 。 学 习 数 学 一 定 要 实践 操作 ,好 似 学 游泳 必须 下 水 ,因此 作为 附录 
列 出 少量 的 习题 。 

共有 中 学 的 代数 知识 和 关于 函数 基本 概念 的 人 ,应 该 能 看 懂 本 书 的 主要 内 容 。 书 中 
在 适当 的 章节 介绍 概率 的 基本 运算 法 则 ,以 及 定 积分 基本 原理 等 数学 内 容 ,以 帮助 有 困 
难 的 读者 。 下 篇 的 部 分 章节 涉及 初等 矩阵 代数 ,部 分 读者 阅读 会 有 些 困 难 ,完全 可 以 略 ' 
过 不 读 。 这 些 章节 在 目录 中 已 用 “x* "号 标注 。 

目前 处 理 统计 学 的 问题 已 有 很 多 计算 机 软件 ,多 元 统计 分 析 涉 及 巨大 的 计算 工作 
量 , 必 须 依赖 于 这 类 软件 。 因 此 本 书 的 第 十 三 章 简要 介绍 了 SPSS 软件 (社会 科学 用 统计 
软件 包 ) ,帮助 读者 人 门 使 用 。 在 下 篇 介绍 聚 类 分 析 、 判 别 分 析 和 主 成 分 分 析 的 应 用 实例 
时 ,就 是 完全 结合 SPSS 的 有 关 程 序 进行 的 ;重点 在 于 帮助 读者 在 程序 执行 前 了 解 软件 对 
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话 窗口 中 各 选项 的 意义 和 对 程序 输出 结果 的 正确 解读 。 

作者 主要 从 事 科 技 考 古 研究 , 虽 介 人 定量 考古 学 的 研究 和 教学 已 20 余年 ,但 并 非 数 
学 或 考古 学 的 科班 出 身 , 这 两 方面 的 学 识 有 限 , 书 中 难免 有 疏漏 和 不 妥 之 处 。 祈 望 同行 
和 读者 的 批评 指教 。 北 京 大 学 考古 系 严 文明 先生 一 直 支 持 鼓励 我 从 事 定量 考古 学 的 研 
究 和 教学 ,我 的 年 轻 同 事 陈 建 立 \ 宝 文博 先生 阅读 了 全 书 并 提出 了 宝贵 意见 , 谨 致 澳 意 。 

最 后 我 引用 著名 考古 学 家 、 原 剑桥 大 学 考古 系 主任 С. ЁЛЕ ЕХ ЕД 
法 的 一 句 话 作为 结束 语 :“ 不 计量 的 日 子 已 指 日 可 计 了 。 (Тһе days of the innumerate аге 
numbered. ) 
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考古 学 的 定量 研究 是 指 对 考古 现象 中 各 种 数量 关系 的 研究 ,使 用 数学 作为 研究 的 方 
法 。 数 学 是 研究 “现实 世界 的 空间 形式 和 数量 关系 的 一 门 学 科 ”( 辞 海 ), 属 方法 论 学 科 。 
它 既 应 用 于 自然 科学 ,也 应 用 于 人 文 社会 科学 ,包括 考古 科学 ,把 数学 归 之 于 自然 科学 范 
畴 是 不 其 妥当 的 。 数 学 的 最 早 发 展 起 因 于 日 常生 活 中 的 计数 ,随后 因 农 业经 济 发 展 所 要 
求 的 土地 丈量 天文 历法 的 研究 而 发 展 为 独立 的 学 科 。 我 国 春秋 时 的 大 政治 家 管仲 曾 说 
过 :不 明 于 计数 ,犹如 无 舟 相 欲 径 于 水 , 险 也 。" 但 在 以 后 的 很 长 时 期 中 ,数学 主要 服务 于 
自然 科学 中 的 天 文学 ,物理 学 等 所 谓 自然 科学 中 的 “精密 科学 "的 研究 。 最 近 几 十 年 来 人 
们 见证 了 生物 科学 、 地 质 科学 心理 学 和 社会 学 等 长 期 以 来 以 定性 描述 和 归纳 方法 为 主 
的 学 科研 究 的 定量 化 ,发 展 了 生物 统计 学 、 地 质数 学 心理 统计 学 和 社会 统计 学 等 二 级 学 
科 。 其 至 有 人 把 学 科研 究 中 是 否 应 用 数学 方法 当 作 学 科 本 身 发 展 成 熟 程度 的 标志 。 各 
学 科 愈 来 愈 多 地 注重 所 研究 对 象 中 量 的 关系 的 研究 。 这 并 不 违背 马克 思 关 于 “一 种 科学 
只 有 成 功 的 运用 数学 时 , 才 算 达到 真正 完善 的 地 步 " 的 观点 。 计 算 机 的 发 展 和 普及 为 数 
学 广泛 应 用 于 人 文 社会 科学 诸 学 科 的 研究 提供 了 现实 的 可 能 ,推动 了 人 文 社会 学 科研 究 
的 定量 化 。 人 文 社会 学 科 的 定量 研究 往往 需要 复杂 的 模型 和 大 容量 的 计算 ,只 可 能 由 计 
算 机 来 完成 。 麻 省 理工 学 院 媒 体 实验 室 的 创始 人 \、 尼 葛 洛 庞 帝 在 其 著名 的 著作 《数字 化 
生存 ) 中 写 道 ,“ 计 算 不 再 只 与 计算 机 有 关 , 数 字 决 定 我 们 的 生存 ”"。 另 一 方面 ,数学 学 科 
本 身 也 是 响应 应 用 的 需要 而 不 断 地 发 展 进 步 的 ,创造 出 新 的 抽象 手段 ,出 现 新 的 分 支 或 
方法 来 应 付 新 的 学 科 领 域 的 要 求 , 例 如 “模糊 数学 "以 适用 于 很 难 进 行 精确 预测 的 气象 科 
学 和 经 济 科学 中 的 课题 ,统计 学 中 的 “ 非 参 数 假设 检验 "适用 于 处 理 不 服从 正 态 函数 分 布 
的 变量 和 较 低层 次 的 有 序 变量 、 名 称 变量 ,等 等 。 总 之 ,数学 是 一 门 方 法 论 学 科 , 并 不 以 
特定 的 自然 现象 或 人 文 社会 现象 的 范畴 作为 自己 研究 的 对 象 ,而 是 服务 于 各 个 学 科 。 

下 面 就 (1) 考 古 学 为 什么 需要 定量 研究 ,以 及 (2) 考 古 学 研究 中 应 用 数学 方法 的 特点 
和 有 关 问 题 等 两 个 方面 作 讨论 。 


11 考古 学 研究 中 为 什么 需要 定量 方法 


考古 学 由 于 其 学 科 特 点 ,定量 研究 的 开展 程度 远 不 如 生物 学 、 社 会 学 、 心 理学 和 教育 
学 那样 普遍 和 深入 ,但 也 是 逐年 发 展 的 。 在 欧美 各 发 达 国 家 ,定量 考古 学 或 者 考古 统计 
学 早已 规定 为 考古 系 学 生 的 必修 课 ,考古 学 家 们 越 来 越 注重 所 研究 对 象 中 的 数量 关系 ， 
定期 召开 关于 计算 机 和 数学 考古 的 国际 学 术 会 议 。 在 我 国 也 出 现 了 同样 的 趋势 ,北京 大 
学 和 吉林 大 学 考古 系 都 已 将 定量 考古 学 课程 列 人 本 科 生 和 研究 生 的 教学 计划 ,更 多 的 考 
古 学 家 运用 定量 方法 于 自己 的 研究 之 中 ,在 考古 学 术 刊 物 中 考古 定量 研究 的 论文 也 逐年 
增多 。 贾 伟 明 (1987)、 陈 铁 梅 (1993) , 滕 铬 予 (2000) 和 陈 建 立 (2000) 相 继 发 表 了 关于 定量 


4 定量 考古 学 


考古 学 研究 的 综述 性 论文 。 在 这 些 论文 中 肯定 了 数学 方法 在 考古 学 研究 中 的 作用 ,特别 
强调 考古 学 的 定量 研究 不 仅仅 是 使 用 数学 方法 的 技术 问题 ,而 是 一 种 思维 模式 ,在 于 提 
倡 同时 注重 考古 学 现象 中 质 和 量 两 方面 的 研究 。 下 面 我 们 根据 考古 学 与 数学 两 个 学 科 
之 间 内 在 联系 ,从 四 个 方面 来 分 析 为 什么 考古 学 研究 应 该 注重 定量 方法 。 


1.1.1 考古 学 研究 对 象 内 涵 各 种 数量 关系 


前 面 已 提 到 ,数学 是 研究 “现实 世界 的 空间 形式 和 数量 关系 ", 属 方法 论 学 科 。 考 古 
学 通过 研究 器 物 .墓葬 、 房 址 遗址、 文化 类 型 等 不 同 层次 的 遗存 ,或 称 考古 实体 来 复原 、 
认识 古代 社会 ,当然 不 可 能 是 以 单独 的 一 件 器 物 — А ЗЕ 、 一 个 遗址 作 为 研究 对 象 ,而 
是 以 器 物 的 整个 一 个 类 型 ,以 器 物 群 . 墓 葛 群 . 文 化 类 型 群 作为 自己 的 研究 对 象 。 为 此 要 
研究 各 层次 考古 实体 的 多 种 特征 ,包括 数量 特征 ,从 中 提取 尽量 多 的 信息 ;并 要 研究 实体 
之 间 的 各 种 关系 包括 数 量 关 系 , 由 此 来 比较 它们 之 间 的 异同 ,进行 分 类 排序 ,这 就 不 能 
排除 用 数学 方法 进行 定量 研究 。 

一 种 非常 重要 ,也 为 考古 学 家 所 熟悉 和 经 常 应 用 的 数量 关系 是 百分比 关系 。 各 类 型 
器 物 在 器 物 总 数 中 所 占 百 分 比 的 变化 可 能 反映 文化 的 地 域 差 异 或 时 代 早 晚 。 例 如 , 磁 山 
类 型 与 裴 李 岗 类 型 各 遗址 出 土 陶器 的 种 类 绝 大 部 分 是 相同 的 。 但 定量 分 析 表 明 ,对 于 前 
者 更 及 支架 占 陶器 总 数 的 58 % ,而 在 裴 李 岗 文化 诸 遗 址 这 两 种 陶器 较为 少见 ,小 口 双 耳 
壶 和 三 足 钵 却 占 57% 以 上 。 这 显示 出 两 个 文化 类 型 间 在 炊具 方面 是 有 显著 差别 的 。 有 
的 考古 学 家 还 以 此 为 依据 建议 ,它们 应 分 别 命名 为 两 种 不 同 的 文化 。 

动物 骨骼 百分比 的 统计 比 单纯 的 定性 研究 可 以 更 清晰 、 更 有 说 服 力 地 反映 时 代 、 生 
态 环境 的 演化 和 社会 经 济 形态 的 变革 。 例 如 ,叙利亚 著名 的 阿布 胡 赖 拉 史 前 遗址 堆积 很 
厚 , 普 分 层 采 集 了 一 万 多 片 羊 骨 片 。 从 下 往 上 依次 按 每 千 片 羊 骨 片 为 单位 进行 统计 ,发 
现在 下 部 的 继 旧 石器 文化 层 中 ,绵羊 和 山羊 骨 片 的 百分比 稳定 在 较 低 的 6% ~ 8% 范围 
中 , 占 统治 地 位 的 骨 片 是 野 羚羊 ,说 明 当 时 以 狩猎 经 济 为 主 。 地 层 稍 靠 上 进入 前 陶 新 石 
器 文化 早期 ,绵羊 和 山羊 的 肯 片 略 有 增加 ,在 8% ~16% 间 摆动 。 而 在 最 上 面 的 属 前 陶 新 
石器 文化 晚期 的 地 层 中 ,这 两 种 人 工 饲 养 型 羊 的 骨 片 的 百分比 突然 猛 增 到 80% , 而 羚羊 
上 骨 片 的 比重 锐 减 。 各 类 羊 骨 片 百 分 比 的 统计 有 说 服 力 地 表明 从 狩猎 经 济 向 家 畜 饲 养 经 
济 的 迅速 转化 。 分 层 定量 统计 准确 地 定 出 了 发 生 转 化 的 地 层 层 位 ,并 通过 碳 十 四 测 年 推 
断 发 生 转 化 的 年 代 (Legge etc .1986)。 

考古 学 中 的 定量 关系 当然 不 局 限于 百分比 关系 。 器 物 特征 (几何 尺寸 纹饰 \ 质 地) 
的 定量 研究 对 器 物 的 正确 分 型 定式 也 是 可 以 作出 贡献 的 。 林 沃 (1980) 在 统计 大 量 东 北 系 
青铜 剑 的 基础 上 ,总结 出 剑 身 的 长 宽 比 在 总 体 上 反映 出 随时 代 而 变 大 的 规律 。 欧 洲 青铜 
时 代 铜 剑 长 度 的 统计 分 析 观 测 到 剑 的 长 度 参 错 不 齐 , 对 此 可 以 有 两 种 不 同 的 解释 :(1) 这 
是 因 生 产 者 和 使 用 者 不 同 而 导致 的 自然 涨 落 ;(2) 实 际 存在 着 长 、 短 两 种 不 同类 型 的 剑 。 
利用 等 长 度 间隔 中 剑 的 数量 分 布 的 直方 图 和 利用 方差 分 析 方 法 ,清楚 地 表明 欧洲 青铜 时 
代 铜 剑 应 分 成 长 剑 和 短 剑 两 个 类 别 。 我 国 的 考古 发 掘 实践 越 来 越 重 视 地 域 和 聚落 内 部 
遗物 和 遗存 的 空间 分 布 ,它们 的 空间 坐标 、 密 度 和 分 布 规律 都 涉及 定量 描述 和 数量 研究 。 
我 国有 的 学 者 开始 根据 聚落 中 的 房屋 数量 、 文 化 堆积 量 、 医 车 的 人 肯 数 和 环境 的 负载 量 
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等 推算 古人 口 数量 ,其 至 进一步 推算 人 口 密度 和 人 口 增长 率 ,探讨 人 口 与 文化 进展 乃至 
文明 起 源 的 关系 。 这 类 研究 都 是 根据 数字 资料 并 建立 一 定 的 数学 模型 。 考 古 器 物 与 它 
们 的 原料 来 源 的 地 理 分 布 研究 可 以 提供 关于 古代 人 和 群 的 活动 范围 ,不 同人 群 之 间 贸 易 交 
往 等 方面 的 信息 。 而 这 类 研究 完全 离 不 开 对 所 研究 器 物 和 原料 的 化 学 组 成 的 测量 ,测量 
的 结果 是 大 量 的 定量 数据 。 

一 般 说 来 ,定量 关系 的 研究 比 单纯 的 定性 描述 能 更 精确 、 深 刻 地 反映 客观 事物 的 本 
质 属性 , 质 的 抽象 应 以 量 的 抽象 为 前 提 。 退 一 步 而 言 ,定量 研究 至 少 可 作为 传统 的 定性 
研究 的 某 种 重要 的 补充 。 


1.1.2 考古 现象 与 考古 资料 的 随机 性 


自然 界 ,特别 是 人 类 社会 有 很 多 现象 ,就 其 个 别 而 言 似乎 是 无 规律 的 ,但 通过 大 量 的 
试验 和 观察 以 后 ,其 总 体 却 呈 现 出 明确 而 稳定 的 规律 性 ,这 些 现象 称 为 随机 现象 ,其 定量 
描述 就 是 随机 变量 。 概 率 统计 学 就 是 “收集 和 分 析 随 机 数据 的 科学 ”(《 不 列 颠 百科 全 
书 》)。 

例如 中 国 成 年 男性 的 身高 就 是 一 个 随机 变量 。 任 意 找 一 个 人 测量 他 的 身高 (统计 学 
称 为 随机 抽样 ) ,所 得 结果 可 在 1.4 米 至 2.2 米 之 间 很 宽 的 范围 内 变化 ,事先 不 能 预测 。 
但 是 当 测 量 了 很 多 人 的 身高 后 ,他 们 的 平均 身高 的 变化 范围 却 是 很 窗 的 。 而 且 从 大 量 人 
群 的 身高 数据 中 还 可 以 观察 到 一 些 稳定 的 规律 ,例如 北方 人 组 的 平均 身高 比 南方 人 组 
高 ,青年 人 组 比 老年 人 组 高 ,城市 组 比 农村 组 高 等 ,反映 出 地 区 、 社 会 进化 .生活 条 件 等 因 
素 对 身高 的 影响 。 被 调查 的 人 数 愈 多 ,统计 学 称 为 样本 的 容量 越 大 ,反映 出 的 规律 性 越 
稳定 。 不 过 这 些 规律 总 归 是 统计 性 的 规律 ,并 不 是 绝对 决定 论 的 规律 ,总 是 有 一 定 的 概 
率 出 现 偏 离 。 

考古 学 是 利用 实物 遗存 资料 去 复原 古代 社会 的 科学 。 考古 发 据 也 是 一 个 抽样 过 程 ， 
经 常 是 随机 的 ,由 考古 资料 去 推断 古代 社会 情况 ,是 由 “样本 "(局 部 ) 推 断 “ 总 体 ” 的 统计 
推断 过 程 ,所 得 的 结论 只 具有 统计 学 的 意义 。 人 举例 来 说 在 某 莫 地 上 发 气 了 37 іи, 
Ж 1-1 是 这 37 座 幕 莫 按 幕 主人 性 别 及 有 无 随葬 品 的 统计 表 。 经 计算 可 知 男性 墓葬 中 带 
随 药品 的 墓葬 数 占 69.2% ,女性 墓葬 带 随葬 品 的 占 45.5% 。 现 在 的 问题 是 :能 否 根据 该 
墓地 的 资料 (样本 ) ,推断 出 优 葬 男 性 是 该 墓地 所 属 考古 学 文化 (总 体 ,也 是 考古 学 研究 的 
真正 对 象 ) 的 某 种 特征 的 结论 ? 或 者 换 一 种 提问 方式 :所 观察 到 的 男女 两 性 墓 车 有 无 随 
药品 的 百分比 的 差别 是 因 样 品 的 随机 性 涨 落 引起 的 (例如 任意 抽 偶 数 张 扑克 牌 时 , 红 、 黑 
色 牌 的 数目 不 一 定 正 好 相等 )? 抑或 确实 反映 了 该 墓地 所 属 文化 优待 男性 的 三 制 ? 个 用 
统计 学 的 方法 是 难以 正确 地 回答 这 个 问题 的 。 


#11 某 募 地 37 座 古 蔓 葬 按 募 主 人 性 别 和 有 无 随 薄 品 的 调查 统计 表 


ЖНЖ хюа 
男性 18 | 8 
女性 5 6 


概率 统计 学 用 一 种 叫 人 (希腊 字母 , 读 作 卡 方 ) 分 布 假设 检验 的 方法 来 处 理 这 一 类 问 
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题 。 就 我 们 的 具体 例子 而 言 ,结论 是 :根据 所 观察 到 的 该 墓地 男女 两 性 墓葬 有 无 随 莫 品 
的 百分比 差别 不 能 导致 "总 体 上 墓葬 有 无 随 草 品 与 幕 主人 的 性 别 有 关 "的 推论 。 当 然 这 
个 判断 并 非 绝对 正确 ,有 一 定 的 概率 (可 以 计算 出 , 约 为 18 %) 这 个 判断 可 能 犯错 误 。 犯 
错误 的 概率 所 以 较 大 ,其 原因 之 一 是 因为 所 统计 的 莫 昔 数 不 够 多 ,或 者 说 样本 的 容量 较 
小 。 

这 个 例子 是 有 代表 性 的 。 考 古 发 掘 的 资料 相对 于 古代 社会 来 说 总 是 零星 的 资料 ,两 
者 间 是 局 部 (或 称 样本 ) 与 全 局 (或 称 总 体 ) 的 关系 ,因此 根据 考古 发 气 的 实物 遗存 ,推导 
所 获得 的 关于 古代 社会 的 知识 必然 带 有 统计 性 ,不 是 绝对 真理 。 以 这 些 知识 作为 前 提 进 
行 逻 辑 推理 所 获得 的 新 的 认识 同样 是 带 统计 性 质 的 。 而 且 古 代 实 物 遗 存 长 期 埋 在 地 下 
会 受到 破坏 ,遗存 的 发 现在 很 大 程度 上 是 随机 的 ,所 以 英国 的 过 程 主义 考古 学 家 D.L. 
Clarke( 中 译文 ,1989) 在 关于 考古 学 的 定义 前 加 了 修饰 词 ,说 考古 学 是 根据 “零星 不 完整 ”， 
而 且 是 “被 扭曲 了 "的 实物 遗存 去 复原 古代 社会 的 科学 ,用 以 强调 考古 原始 资料 的 随机 
性 。 这 不 是 对 考古 学 知识 体系 的 贬低 ,而 是 更 符合 客观 实际 。 社 会 学 ,心理 学 等 学 科 的 
知识 体系 同样 是 带 统计 性 质 的 。 这 个 例子 也 说 明 不 应 把 定量 考古 学 仅仅 看 成 是 应 用 某 
些 数 学 的 方法 和 技术 ,而 更 重要 的 是 一 种 思维 模式 , 即 需要 用 统计 学 的 观点 ,从 数量 的 角 
度 来 看 待考 古 学 的 现象 和 规律 。 

很 多 有 见识 的 考古 学 家 在 自己 的 研究 工作 中 确 是 用 朴素 的 概率 统计 的 观点 来 看 待 
考古 现象 的 。 例 如 他 们 清楚 地 认识 到 孤 证 材料 缺乏 证 明 力 ,他 们 在 推理 论证 时 表现 出 必 
要 的 谨慎 ,他 们 在 下 结论 时 限定 结论 适用 的 范围 ,使 用 “有 可 能 “有 较 大 可 能 "等 量词 。 
但 是 我 们 也 确实 在 考古 文献 中 看 到 一 些 因 不 理解 考古 现象 和 考古 规律 的 统计 性 质 而 作 
出 的 错误 推论 。 需 要 指出 ,以 朴素 的 概率 统计 观点 处 理 考古 现象 总 归 是 有 局 限 性 。 概 率 
统计 学 在 考古 学 资料 的 定量 研究 中 占有 十 分 重要 的 地 位 ,有 时 将 “定量 考古 学 ”" 和 “考古 
统计 学 "作为 同一 个 概念 来 使 用 。 因 此 值得 提倡 考古 学 家 ,特别 是 年 轻 的 考古 学 家 掌握 
基础 概率 统计 的 知识 。 或 者 说 概率 统计 的 观点 和 方法 在 考古 学 研究 中 是 不 可 或 缺 的 。 


1.1.3 大 信息 量 、 复 杂 的 考古 资料 需要 数量 分 析 方 法 


随 着 考古 研究 的 深入 ,所 累积 的 信息 量 愈 来 愈 多 ,各 种 信息 间 的 关系 也 愈益 复杂 。 
当 考 古 学 家 主要 赁 自己 的 经 验 对 有 关 考古 遗存 的 肉眼 观察 ,用 自然 语言 对 观察 结果 进行 
描述 ,然后 对 这 些 资 料 作 综 合 分 析 时 ,难免 受 人 脑 的 记忆 和 思维 能 力 的 限制 ,难以 作 全 面 
的 分 析 。 通 常 的 做 法 是 从 中 找 出 少数 几 方 面 主要 的 信息 , 仅 限 于 考虑 少数 几 个 ,甚至 于 
一 二 个 变量 。 例 如 在 器 物 的 分 型 分 式 时 找 典 型 的 特征 ,在 墓葬 的 分 期 中 找 典 型 的 器 物 。 
这 种 传统 的 分 析 程 序 无 疑 是 有 效 的 ,也许 是 掌握 了 主要 了 矛盾。 但 这 除 要 求 考古 学 家 有 丰 
富 的 经 验 、 掌 握 大 量 的 相关 知识 和 花费 大 量 的 劳动 外 ,还 难免 有 不 足 之 处 。 例 如 在 提取 
主要 信息 的 同时 可 能 把 大 量 被 认为 是 非 主要 的 信息 丢失 ,而且 不 同 的 考古 学 家 对 同一 问 
题 作 研究 时 所 选取 的 典型 特征 .典型 器 物 可 能 是 不 一 样 的 ,研究 的 结论 也 会 有 所 差异 。 
这 种 情况 下 难以 严格 地 判断 哪 一 种 结论 更 符合 实际 。. 在 某 些 研 究 中 ,所 谓 的 典型 特征 或 
典型 器 物 似乎 是 在 对 研究 结论 已 有 某 种 先 验 的 看 法 的 情况 下 “选取 ”的 ,因果 关系 有 可 能 
被 颠倒 。 
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多 元 统计 方法 ,或 称 多 变量 分 析 方法 能 方便 地 处 理 大 批量 的 而 且 复 杂 的 考古 信息 资 
料 ,包含 大 量 的 考古 实体 ,每 个 实体 具有 多 方面 的 特征 (变量 )。 在 处 理 这 类 复杂 问题 时 ， 
多 元 统计 方法 可 对 实体 排序 、 分 类 ,还 可 以 揭示 变量 与 变量 之 间 的 相关 关系 。 处 理 有 关 
数据 时 可 以 给 某 些 变量 加 不 同 的 权重 。 加 权 实 际 上 颇 类 似 于 传统 方法 中 的 选取 典型 特 
ДЕ ,但 选取 的 标准 不 单 是 赁 研究 者 的 个 人 经 验 和 主观 认识 ,也 可 以 由 数据 结构 本 身 导出 。 
多 元 统计 方法 在 处 理 数 据 时 , 除 给 “典型 特征 ”加权 外 ,也 同时 考虑 所 有 其 他 的 特征 ,减少 
了 顾此失彼 和 绝对 化 的 缺点 。 用 多 元 分 析 方 法 处 理 数据 都 是 借助 于 计算 机 的 ,数据 处 理 
计算 过 程 甚 快 ,适当 地 改变 重点 特征 的 选取 和 改变 所 加 权 量 ,很 快 又 能 得 到 另 一 个 分 析 
计算 结果 , 供 研 究 者 分 析 选 择 。 

多 元 统计 方法 的 应 用 和 其 他 定量 方法 一 样 首先 要 求 对 被 研究 实体 的 诸 特 征 作 定量 
化 描述 ,由 于 不 同类 型 考古 实体 其 特征 的 定量 化 描述 的 难 易 程度 不 同 ,目前 多 元 统计 方 
法 在 考古 学 不 同类 型 的 研究 课题 中 取得 的 进展 和 成 功 程度 也 很 不 同 ,这 在 本 章 下 面 1.2 
节 中 将 详 述 。 

在 区 域 考 古 调查 中 需要 综合 处 理 在 不 同 地 点 \ 不 同 自然 和 人 文 环境 下 出 土 的 不 同时 
代 的 不 同 遗 存 的 大 量 信息 ,需要 研究 各 个 变量 之 间 的 关系 ,这 是 离 不 开 数 量 分 析 方法 的 ， 
正如 在 萌 芦 河流 域 和 赤峰 地 区 考古 调查 的 考古 学 家 们 所 做 的 那样 。 随 着 考古 资料 的 增 
多 ,人 们 正在 建立 各 地 区 的 考古 学 地 理 信 息 系统 ,这 同样 需要 将 已 掌握 的 大 量 考古 资料 
定量 化 符号 化 ,并 按 规定 的 原则 输入 地 理 信息 系统 。 


114 数学 是 一 种 特殊 的 语言 系统 ,是 自然 语言 的 补充 


数学 也 是 一 种 语言 符号 系统 , 它 经 常 应 用 图 、 表 等 工具 表述 现象 和 规律 ,这 种 表述 
方式 具有 简明 清晰 等 优点 。 例 如 本 章 前 面 的 表 1-1 是 一 张 2 行 2 列 的 表 , 它 等 效 于 自然 
语言 中 的 四 句 话 , 即 按 行 横 读 2 句 ;“ 男 ( 女 ) 性 墓葬 中 带 随 匡 品 的 有 18(5) 座 ,无 随 茸 品 的 
有 8(6) 座 ”; 按 列 竖 读 2 句 ;“ 带 (不 带 ) 随 三 品 的 墓葬 中 幕 主人 为 男性 的 有 18(8) Æ, Æ E 
人 为 女性 有 5(6) 座 。 表 1-1 的 行 数 和 列 数 均 不 大 ,表格 语言 简明 的 优点 也 许 还 不 太 明显 。 
我 们 设想 有 一 张 记录 25 EARP (T) 种 器 物 数量 分 布 ( 列 ) 的 统计 表 。 该 表 就 相当 于 
25 加 15 共 40 名 陈述 句 ,反映 每 座 幕 芋 中 含有 哪儿 种 器 物 ,每 种 器 物 多 少 件 ( 横 读 25 句 ); 
和 每 种 器 物 出 现在 哪 几 座 幕 匡 中 ,数量 多 少 ( 紧 读 .15 句 )。 表 格 比 自然 语言 简明 多 了 。 
而 且 , 如 果 这 25 座 墓 昔 在 表 中 已 按 序 分 期 排列 ,从 表 中 还 可 清楚 看 到 每 种 器 物 按 时 间 演 
化 的 规律 ,并 可 反 过 来 按 表 中 器 物 演 化 的 规律 来 判断 幕 匡 的 分 期 排列 是 否 正 确 。 这 在 第 
十 七 章 关 于 史家 幕 地 14 种 器 物 式 别 在 6 种 分 期 方案 中 的 分 布 比 较 表 中 可 以 清楚 看 到 ( 见 
Ж 17-8 MÆ 17-10) 。 

图 形 也 是 数学 语言 的 一 种 重要 表述 方法 。 图 1-1 和 图 1-2 分 别 表述 了 青海 柳 湾 墓地 
各 死亡 年 龄 段 人 骨 的 百分比 ,男女 分 别 统计 。 图 1-1 用 的 直方 图 ,而 图 1-2 用 累计 百分数 
曲线 。 前 者 清楚 地 显示 了 青年 女性 的 高 死亡 率 这 个 特点 ,而 后 者 清晰 地 表明 男性 的 平均 
寿命 高 于 女性 。 

前 述 图 表 表 明 ,图 表 语 言 比 自然 语言 不 仅 简 明 清 晰 ,而 且 更 容易 揭示 出 所 观测 数据 
中 所 隐藏 的 规律 性 。 
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我 们 建议 考古 工作 者 多 使 用 数学 语言 ,还 出 于 以 下 两 方面 考虑 。 (1) 各 种 自然 科学 
方法 ,如 测 年 文物 的 成 分 分 析 、 生 物 学 技术 和 遥感 等 ,在 考古 研究 中 的 应 用 愈益 普及 ,更 
多 的 自然 科学 工作 者 已 成 为 或 正在 成 为 考古 学 家 的 合作 者 。 自 然 科学 工作 者 在 自己 的 
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研究 工作 中 ,在 发 表 研究 成 果 时 ,是 离 不 开 图 表 等 数学 语言 的 。 考 古 学 家 熟悉 数学 语言 
能 促进 与 自然 科学 工作 者 的 交流 合作 。(2) 计 算 机 在 处 理 ,贮存 考古 资料 中 的 作用 已 为 
大 家 所 承认 ,应 用 也 日 益 广泛 ,但 计算 机 主要 处 理 数字 和 符号 ,目前 它 处 理 自然 语言 , 特 
别 是 汉字 的 能 力 还 有 限 , 很 多 软件 都 是 为 处 理 数 字 和 符号 编写 的 。 


1.2 考古 学 研究 中 应 用 数学 方法 的 特点 和 有 关 问 题 


前 面 我 们 从 考古 现象 中 的 定量 关系 、 概 率 统计 的 观点 .复杂 资料 系统 和 辅助 的 语言 
符号 系统 等 四 个 方面 论述 了 数学 在 考古 学 研究 中 所 能 起 的 作用 。 本 节 将 论述 数学 方法 
应 用 于 考古 学 的 特点 和 我 们 在 这 个 问题 上 的 某 些 看 法 。 


121 定量 研究 作为 一 种 思维 模式 要 求 考古 学 家 的 亲身 实践 


数学 并 不 是 以 某 特 定 范畴 的 自然 现象 或 社会 现象 作为 自己 的 研究 对 象 , 而 是 研究 自 
然 和 社会 现象 中 各 种 数量 关系 的 一 种 抽象 体系 , 属 方法 论 学 科 。 因 此 它 在 考古 学 研究 中 
的 应 用 ,不同 于 碳 十 四 测 年 . 孢 粉 分 析 或 文物 的 化 学 成 分 分 析 等 。 它 不 是 一 门 分 离 、 独 立 
的 专业 技术 ,而 是 考古 学 家 为 整理 考古 资料 ,或 者 更 确切 地 说 ,是 整理 自己 头脑 中 对 考古 
资料 的 认识 的 一 种 工具 和 思维 模式 ,是 每 天 每 时 都 要 使 用 的 工具 。 考 古 学 家 不 必 亲 自 去 
观察 孢 粉 ,也 不 必 亲 手 去 测定 碳 十 四 样品 年 龄 ,所 要 求 考古 学 家 的 主要 是 正确 采样 和 合 
理 地 分 析 测 试 结果 (这 又 要 求 用 数学 )。 但 是 考古 学 家 必须 自始至终 并 亲自 清楚 地 意识 
到 他 所 研究 课题 中 的 数量 关系 ,他 所 掌握 资料 的 概率 统计 性 质 。 他 应 有 能 力 从 自己 的 课 
题 中 提出 数学 问题 ,在 与 数学 家 和 统计 学 家 合作 时 能 向 他 们 解释 清楚 所 涉及 问题 的 考古 
学 内 涵 , 与 他们 商讨 采用 合适 的 数学 方法 处 理 考古 资料 ,共同 认识 隐 含 在 考古 资料 中 的 
规律 模式。 总 之 ,考古 学 家 必须 杂 身 参与 考古 学 资料 中 定量 关系 的 研究 ,别人 是 不 能 代 
应 越 租 的 。 那 种 认为 考古 学 家 提供 资料 ,请 数学 家 来 做 定量 分 析 的 看 法 是 完全 错误 的 ， 
多 数 情 况 下 不 可 能 得 到 什么 有 意义 的 成 果 ,往往 是 数学 家 不 切 题 的 答案 对 应 于 考古 学 家 
模糊 不 清 的 问题 。 与 数学 家 的 交流 合作 要 求 考古 学 家 本 身 应 具有 一 定 的 数学 知识 。 

笔者 认为 未 来 对 定量 考古 学 作出 贡献 的 将 是 考古 学 家 本 身 ,因为 只 有 他 们 才 懂 得 所 
研究 考古 现象 的 真正 内 涵 ,懂得 数学 计算 结果 的 考古 学 含义 ,懂得 选择 、 其 至 发 展 合适 的 
数学 工具 去 解决 考古 研究 中 的 特殊 问题 。 已 走 在 前 面 的 西方 考古 学 界 的 现实 情况 也 是 
如 此 。 笔 者 寄 深切 希望 于 我 国 年 轻 的 考古 工作 者 ,只 有 他 们 才能 真正 推进 我 国 考古 学 的 
定量 研究 。 


1.2.2 定量 思维 贯彻 于 考古 研究 的 各 个 阶段 


定量 方法 并 非 只 是 在 考古 研究 的 最 后 阶段 , 即 资料 整理 和 总 结 阶段 才 被 运用 。 在 制 
定 研 究 计划 时 ,研究 者 不 仅 决定 要 做 什么 ,还 要 决定 怎样 做 ,发 掘 阶段 收集 什么 资料 , 怎 
样 收集 资料 等 。 这 些 先 期 的 计划 应 与 事后 用 怎样 的 方法 来 分 析 资 料 是 相配 合 的 。 因 此 
定量 方法 、 或 更 确切 地 说 定量 思维 的 模式 ,在 考古 研究 的 整个 过 程 中 应 得 到 自始至终 的 
贯彻 。 例 如 在 本 章 1.1.1 节 介 绍 阿 布 胡 赖 拉 遗址 羊 骨 片 统计 的 例子 中 ,为 了 最 后 分 析 人 
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工 饲 养 型 羊 骨 片 百分比 随时 间 的 变化 ,在 发 掘 时 就 必需 仔细 分 层 发 掘 ,而 且 清 楚 标 明 每 
片 骨 片 出 土 的 层 位 及 埋藏 深度 。 如 果 到 最 后 资料 整理 阶段 才 发 现 资料 不 全 或 不 够 详细 
以 至 影响 进行 深信 的 定量 研究 ,往往 已 为 时 过 晚 ,难以 弥补 了 。 一 般 说 来 如 果 考 十 工作 
者 自始至终 自觉 地 注意 定量 关系 ,会 使 得 他 的 发 掘 工作 发掘 记 录 更 仔细 、 更 科学 。 


1.2.3 定量 研究 方法 并 不 难 , 可 以 借助 计算 机 的 帮助 


在 运用 多 元 分 析 方法 处 理 复 杂 繁 琐 的 考古 资料 时 ,数学 处 理 过 程 看 起 来 似乎 很 复 
杂 , 其 至 难 懂 和 吓人 。 其 实在 很 多 情况 下 ,即使 没有 数学 家 的 帮助 ,考古 学 家 自己 用 某 些 
简单 的 数学 手段 就 能 得 到 有 意义 的 分 析 结 果 。 例 如 1.1.4 节 中 用 图 表 方 法 对 柳 湾 募 地 各 
死亡 年 龄 段 男女 人 肯 百 分 比比 较 的 表述 。 考 古 学 家 黄 蕴 平 (1996) 曾 自己 计算 了 周口 店 第 
一 地 点 和 南京 汤山 两 地 出 土 的 肿 骨 鹿 腿 骨 直 径 的 平均 值 和 标准 差 并 作 统 计 检 验 ,发 现 前 
者 粗壮 而 后 者 纤细 ,由 此 得 出 两 地 的 相应 地 层 在 时 代 上 可 能 有 先后 的 考古 推论 。 考 古 学 
家 袁 靖 等 (Yuan,2002) 根 据 山 东 一 些 贝 丘 遗 址 各 层 贝 壳 的 平均 尺寸 及 其 标准 差 做 统计 检 
验 ,由 此 推论 因 生 存 压 力 导致 晚期 贝壳 平均 尺寸 的 变 小 。 这 里 计算 平均 值 和 标准 差 是 简 
单 的 算术 运算 ,做 统计 检验 也 不 复杂 ,考古 学 家 不 难 自己 动手 实现 ,何况 可 以 使 用 现 有 的 
计算 机 软件 。 即 使 复杂 的 多 元 统计 分 析 , 也 有 相应 的 软件 ,完全 不 需 手 工 计算 。 关 键 是 
要 定性 了 解 计算 方法 的 基本 原理 ,学 习 正 确 地 使 用 相关 的 计算 机 程序 和 对 程序 输出 结果 
的 正确 解读 。 可 喜 的 是 我 国 部 分 中 青年 考古 学 家 已 经 在 自己 动手 操作 。 


1.2.4 考古 学 定量 研究 的 初期 阶段 犯 有 错误 是 难免 的 


考古 学 学 科 在 刚 开始 应 用 定量 方法 ,特别 是 各 种 统计 方法 时 ,难免 犯 各 种 各 样 的 错 
误 , 有 时 甚至 是 很 原始 ,低级 的 错误 。 这 并 不 可 怕 ,甚至 有 一 定 的 必然 性 。 最 常见 的 错误 
是 使 用 某 种 统计 学 方法 或 程序 时 ,忽略 了 每 种 方法 或 统计 软件 在 处 理 数据 时 所 要 求 的 前 
提 条 件 ,另外 就 是 所 处 理 的 数据 样本 容量 太 小 ,等 等 。 这 类 错误 在 我 国 近 几 年 发 表 的 考 
吉 论 文中 也 是 能 看 到 的 ,例如 有 的 论文 对 某 文化 类 型 仅 测量 了 一 片 陶 片 的 化 学 组 成 ,就 
把 它 看 成 是 该 文化 类 型 陶 片 化 学 组 成 的 代表 作 束 类 分 析 , 其 研究 结论 的 可 信 度 肯定 成 问 
题 的 。 还 有 在 用 联 列表 的 о 检验 来 判断 两 个 考古 学 因素 之 间 是 否 有 关联 时 , 联 列表 中 部 
分 单元 格 中 的 个 体 数 太 少 导致 了 判断 结果 不 稳定 。 这 些 情况 说 明 要 求 普及 定量 考古 学 
的 基本 知识 ,以 便 准 确 地 应 用 定量 方法 。 

美国 于 20 世纪 60,70 年 代 ,过 程 主义 考古 学 盛行 。 过 程 主义 学 派 注重 考古 现象 之 间 
的 关系 研究 和 提倡 假设 检验 方法 ,这 必然 促使 他 们 应 用 概率 统计 学 中 的 各 种 关联 研究 和 
假设 检验 的 理论 与 方法 ,他 们 还 把 考古 研究 的 定量 化 与 客观 化 ,科学 化 相 联 系 。 因 此 当 
时 很 多 考古 学 家 在 自己 的 研究 中 积极 运用 数学 方法 ,但 在 运用 中 也 犯 了 很 多 错误 ,甚至 
出 现 个 别 例 子 因 脱 高 考古 学 内 容 乱用 数学 方法 而 六 笑话 。80 年 代 初 后 过 程 主义 考古 学 
兴起 ,该 学 派 在 批评 过 程 主义 考古 学 的 错误 时 , 曾 一 度 对 过 程 主义 考古 学 家 常用 的 定量 
方法 本 身 提出 怀疑 。 但 在 1985 年 美国 考古 学 会 第 50 届 年 会 上 ,组 织 了 关于 定量 考古 学 
的 专题 讨论 ,总 结 这 方面 的 经 验 教 训 。 会 后 由 美国 西北 大 学 人 类 学 系 的 M.S. Aldenderfer 
(1987) 教 授 主编 出 版 了 该 专题 讨论 会 的 论文 集 。 这 是 一 本 定量 考古 学 方面 很 有 影响 的 
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书 。90 年 代 以 后 美国 的 考古 界 对 考古 学 的 定量 研究 逐步 建立 一 种 积极 而 正确 的 态度 。 
1.2.5 定量 研究 不 排除 主观 性 , 它 与 传统 的 考古 研究 方法 是 相辅相成 的 


数量 关系 的 研究 不 仅 能 揭示 被 研究 考古 资料 中 内 会 的 ,而 不 易 被 传统 的 定性 研究 所 
看 出 的 某 些 现象 和 规律 ,而 且 定量 研究 排除 了 在 归纳 和 演绎 等 推理 过 程 中 可 能 出 现 的 主 
观 任意 性 。 定 性 研究 的 过 程 使 用 自然 语言 ,在 推理 过 程 中 有 时 所 涉及 的 概念 的 界定 不 一 
定 严 格 ,在 表述 者 和 读 ( 听 ) 者 之 间 不 一 定 有 完全 的 共识 ,此 外 ,推理 过 程 中 逻辑 关系 的 表 
述 也 不 一 定 清晰 和 连贯 。 定 量 研究 的 特点 是 概念 界定 清楚 ,逻辑 严格 。 但 定量 方法 并 不 
是 笼统 地 排除 主观 性 ,在 对 材料 (数据 ) 的 选取 ,对 材料 中 不 同 组 成 部 分 所 给 权重 的 大 小 ， 
采用 哪 一 种 定量 方法 ,处 理 材 料 时 考虑 哪些 因素 ,哪些 因素 不 予 考虑 等 方面 ,研究 者 都 可 
以 凭 自己 的 知识 与 经 验 自由 选择 和 决定 。 这 是 研究 者 的 主观 意见 。 但 材料 与 方法 一 旦 
选 定 后 ,下 一 步 对 材料 (数据 ) 的 处 理 过 程 就 必然 要 按照 严格 的 数学 逐 辑 来 进行 ,中 间 不 
可 能 任意 变动 。 即 数据 和 处 理 方法 确定 后 ,最 终 的 结果 也 已 确定 了 。 因 此 在 定量 研究 中 
研究 者 的 主观 意见 是 放 在 桌面 上 的 ,大 家 看 的 见 ,明晰 的 而 不 是 隐藏 的 。 数 学 方法 排除 
的 是 主观 任意 性 。 

另 一 方面 也 需要 指出 ,传统 的 考古 研究 方法 善于 在 大 量 的 考古 材料 中 ,充分 利用 考 
古 学 家 对 于 有 关 研 究 课题 已 有 的 知识 和 经 验 ,通过 反复 的 对 比分 析 ,排除 干扰 ,寻找 典型 
特征 、 典 型 器 物 , 即 掌握 主要 矛盾 。 在 研究 像 陶 珊 等 形态 复杂 的 器 物 时 ,掌握 主要 特征 是 
十 分 重要 的 。 此 外 它 还 考虑 考古 现象 的 特殊 规律 ,如 早期 的 遗物 可 以 在 晚期 的 单位 中 出 
现 ,类 型 学 中 的 祖 型 和 和 遗 型 问题 等 。 目 前 的 各 种 定量 研究 方法 昌 有 前 述 的 各 种 优点 ,但 
还 不 能 理想 地 处 理 这 类 问题 。 此 外 对 器 物 外 型 的 定量 描述 有 时 比较 困难 ,例如 对 融 这 类 
非 辐 射 对 称 形 的 器 物 。 珊 的 襟 高 虽 可 以 直接 测量 ,但 是 应 该 使 用 襟 高 的 直接 测量 值 , 还 
是 用 宙 高 与 高 总 高 的 比值 更 合适 呢 。 另 外 怎样 对 扁 足 形状 的 定量 描述 等 都 比较 困难 。 
总 之 定量 方法 本 身 还 不 完善 ,需要 改进 发 展 ,考古 研究 中 传统 方法 和 定量 方法 是 互相 补 
充 的 。 在 第 十 七 章 我 们 将 通过 详细 比较 两 种 方法 对 史家 墓地 分 期 的 异同 ,进一步 阐明 它 
们 的 互补 性 。 


1.2.6 定量 考古 学 的 教学 是 与 国际 接轨 与 自然 科学 工作 者 合作 的 需要 


为 了 在 考古 学 研究 中 注重 和 开展 定量 关系 的 研究 ,考古 工作 者 ,特别 是 青年 考古 工 
作者 和 大 学 考古 系 的 学 生 应 该 学 一 点 数学 。 美 国 .西欧 及 前 苏联 各 主要 大 学 的 考古 系 和 
人 类 学 系 都 开设 定量 考古 学 (或 考古 统计 学 ) 等 课程 ,出 版 了 多 本 定量 考古 学 的 教科 书 。 
例如 英国 伦敦 大 学 Shennan 编写 的 《Quantifying Archaeology 》1988 年 出 版 后 ,1990 年 再 版 ， 
而 1997 年 又 出 版 了 第 二 版 修订 本 ,牛津 大 学 考古 学 院 Fletcher 等 编写 的 《Digging Numbers》 
于 1991 出 版 后 ,也 几 次 修改 再 版 。 与 我 国有 密切 合作 关系 的 匹 茨 堡 大 学 人 类 学 系 主任 
Drennan( 中 文 名 为 周南 ) 亲 自 讲 授 定量 考古 学 课程 ,并 编写 教材 《Statistics for Achaeologists》 
(1996)。 前 苏联 高 等 教育 部 早 在 1987 年 就 审批 出 版 了 高 等 学 校 定量 考古 学 教科 书 
(Genopoa- Taaprmmop,1987) 。 考 古 工 作者 要 学 一 点 自然 科学 知识 和 有 关 的 数学 知识 早已 成 
为 国外 考古 学 界 的 共识 。 近 年 来 我 国 考古 学 家 投 寄 国外 考古 学 术 刊 物 的 论文 , 常 被 编辑 
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和 和 审 稿 人 要 求 对 数据 作 规 范 的 统计 学 处 理 和 表述 。 英 国 剑桥 大 学 考古 系 前 主任 、 著 名 考 
古 学 家 С. 伦 福 儒 事 士 十 分 重视 考古 资料 的 定量 研究 ,他 认为 在 考古 研究 中 “不 计量 的 日 
子 已 指 日 可 计 了 ”。90 年 代 初 作者 访问 伦 福 儒 时 ,他 曾 谈 到 中 国学 生 如 到 剑桥 读 考 古 学 
位 ,要 补 的 第 一 门 课程 是 概率 统计 学 。 

在 高 等 教育 中 ,西方 国家 的 经 验 是 应 该 单独 为 考古 系 学 生 开设 定量 方法 和 统计 学 的 
课程 。 虽然 用 于 各 学 科 的 定量 方法 和 统计 方法 很 多 是 共通 的 ,但 考古 系 学 生 在 其 他 系 旁 
昕 这 方面 课程 的 效果 并 不 好 。 因 为 这 些 课程 中 所 举 的 实例 与 考古 学 毫 无 关系 ,考古 系 学 
生 感到 这 些 例子 陌生 ,不 好 理解 ,其 至 使 人 大 烦 。 很 多 考古 系 学 生 的 数学 基础 不 强 , 数 学 
本 身 已 够 难 学 了 ,不 应 再 附加 这 些 陌生 的 例子 。 已 有 的 教学 经 验 表 明 ,不 熟悉 数学 的 人 
往往 更 易于 通过 自己 所 熟悉 的 实例 来 逐步 把 握 定量 方法 的 内 容 , 而 不 是 首先 掌握 作为 应 
用 基础 的 抽象 数学 逻辑 。 成 功 应 用 于 考古 研究 的 数学 方法 不 仅 易 被 考古 系 学 生 人 掌握, 而 
且 能 引起 他 们 学 习 数 学 方法 的 兴趣 ,激发 联想 ,产生 在 自己 的 研究 课题 中 关注 定量 关系 
的 愿望 。 

近年 来 国家 教育 部 已 审定 以 初等 微 积分 为 主要 内 容 的 高 等 数学 列 为 高 等 院 校 文科 
一 年 级 学 生 的 必修 课程 ,反映 了 当前 学 科 综 合 和 文理 结合 的 总 趋势 。 北 京 大 学 和 吉林 大 
学 考古 系 先后 于 80 年 代 末 和 90 年 代 开 始 讲授 定量 考古 和 计算 机 考古 课程 ,有 部 分 同学 
因为 认真 学 习 而 受益 。 男 一 方面 约 20 年 来 在 我 国 考古 学 的 研究 中 ,定量 研究 方法 经 历 
了 虽然 艰难 .但 不 断 进 展 的 探索 历程 。 我 们 欣喜 地 看 到 一 些 中 青年 考古 学 家 已 关注 自己 
的 研究 课题 中 的 数量 关系 ,并 正确 ,有效 地 用 数学 方法 来 研究 考古 资料 中 的 数量 关系 。 
据 不 完全 的 统计 有 戎 芦 河流 域 和 赤峰 地 区 考古 调查 , 某 些 旧 石 器 地 点 石器 和 石 片 的 分 布 
规律 研究 , 雨 台山 幕 莫 的 排序 ,史家 墓地 的 概率 方法 分 期 ,有 胡 钢 戈 的 回归 断代 , 乔 村 墓 
地 出 土 器 物 的 聚 类 分 析 以 及 两 周 随 莫 青铜 容器 的 组 合 研究 等 ,这 些 工 作 都 是 由 考古 学 家 
亲自 完成 的 。 此 外 在 我 国有 不 少 考古 学 家 从 事 动 物 考古 、 植 物 考古 和 体质 人 类 学 的 研 
究 , 他 们 的 研究 资料 原本 就 包含 了 描述 被 研究 对 象形 态 特征 的 长 度 、 厚 度 、 角 度 、 比 值 指 
数 等 数值 型 参数 ,各 类 研究 对 象 出 现 的 频次 .频率 等 定量 数据 。 因 此 这 些 考古 学 家 已 普 
遍 使 用 概率 统计 学 的 基本 方法 ,而 且 在 使 用 传统 的 对 多 个 单项 指标 进行 统计 比较 的 同 
时 ,逐步 应 用 聚 类 . 主 成 分 分 析 、 相 关 分 析 等 综合 的 多 元 统计 方法 。 体 质 人 类 学 中 应 用 多 
元 统计 方法 的 优点 在 对 山东 大 汶 口 .安阳 筷 墟 、. 辽 宁 喇 路 洞 墓地 、 新 疆 营 盘 墓 地 颅骨 的 种 
族 关系 研究 等 工作 中 得 到 了 充分 的 体现 。 至 于 目前 主要 由 自然 科学 工作 者 进行 的 关于 
古 陶 次 产地 的 溯源 研究 , 因 研 究 是 基于 测量 古 陶瓷 化 学 元 素 组 成 的 数值 变量 ,近年 来 发 
表 的 几 十 篇 论文 全 部 使 用 多 元 统计 方法 , 除 常用 的 聚 类 、 主 成 分 分 析 、 判 别 分 析 等 方法 
外 ,还 尝试 使 用 了 人 工 神经 网 络 ,模糊 聚 类 等 方法 。 文 理学 科 的 结合 ,考古 学 家 与 自然 科 
学 学 科 的 人 员 愈益 紧密 的 合作 也 紧迫 地 要 求 中 青年 考古 工作 者 和 考古 系 的 学 生 学 习 定 
量 考古 学 的 内 容 。 

本 书 作 为 我 国 第 一 本 关于 定量 考古 学 的 专门 著作 ,作者 希望 它 能 对 十 多 年 来 我 国 考 
古 学 研究 中 应 用 定量 方法 的 进展 、 成 果 和 问题 有 所 总 结 。 同 时 作为 一 本 教材 , 应 能 帮助 
学 生 掌 握 考古 定量 研究 的 各 种 基本 方法 。 本 书 不 是 一 本 讲述 基础 概率 统计 学 和 多 元 统 
计 分 析 的 数学 书 , 因 此 不 拘泥 于 严格 的 数学 推导 ,经 常 不 通过 推导 \ 证 明 而 直接 给 出 最 终 
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的 数学 公式 。 但 本 书 更 不 是 “就 调 指南 ” 式 的 工具 书 。 本 书 将 系统 地 、 由 浅 入 深 地 介绍 应 
用 于 考古 资料 定量 研究 的 各 种 方法 的 基本 思想 和 原理 功能 ,特别 是 阐明 正确 运用 这 些 
方法 的 前 提 条 件 和 对 定量 分 析 结 果 的 正确 解读 。 全 部 的 内 容 论 述 都 将 结合 实际 的 例子 ， 
特别 是 我 国 考古 研究 中 的 实际 例子 。 在 很 多 章节 还 介绍 如 何 应 用 EXCEL 和 SPSS 等 计算 
机 软件 于 实际 问题 的 解决 。 


Я-ын ”考古 资料 的 定量 描述 


2.1 考古 实体 和 实体 的 属性 


考古 学 研究 器 物 . 墓 葛 、 房 址 .聚落 .遗址 和 文化 类 型 等 不 同 层 次 的 文化 遗存 。 为 了 
对 各 类 文化 遗存 作 定量 研究 ,首先 要 对 遗存 资料 作 定 量化 的 描述 。 本 书 中 称 这 些 遗 存 为 
不 同 层次 的 考古 实体 ,实体 有 时 也 称 为 样品 .个 体 或 个 案 等 。 我 们 知道 。 考 古 学 不 是 研 
究 单 件 的 器 物 .单一 的 墓葬 ,而 是 将 器 物 的 整个 一 个 或 几 个 类 型 .一 组 或 几 组 募 匡 群 ,一 
类 或 几 类 文化 类 型 作为 自己 的 研究 对 象 。 为 此 要 研究 和 比较 同一 层次 不 同 实 体 之 间 性 
状 特 征 的 异同 ,根据 性 状 的 异同 来 对 实体 群 进行 分 类 和 排序 。 璧 如 说 一 批 陶 豆 可 以 根据 
其 形状 .纹饰 和 陶 质 来 分 类 。 形 状 ,纹饰 和 陶 质 等 描述 陶 豆 性 状 特征 的 各 个 信息 项 目 称 
之 为 陶 豆 的 属性 。 对 考古 实体 的 定量 研究 ,首先 要 对 其 属性 作 数量 化 或 符号 化 的 描述 。 
数量 化 或 符号 化 描述 的 属性 称 之 为 观测 数据 。 因 为 同一 属性 在 不 同 的 实体 上 反映 为 相 
同 或 不 同 的 观测 数据 ,因此 观测 数据 也 称 变量 。 变 量 和 数据 在 本 书 中 经 常 作 为 相同 的 概 
念 使 用 。 描 述 实体 群 的 有 关 属 性 的 观测 数据 或 变量 组 成 了 考古 学 定量 研究 的 基础 资料 。 

需要 指出 ,实体 和 属性 是 相对 的 概念 。 例 如 把 某 种 器 物 究 竟 看 成 是 实体 还 是 属性 ， 
要 依据 所 研究 的 问题 而 定 。 如 果 希 望 对 这 类 器 物 进行 分 类 ,该 类 器 物 的 各 个 个 体 就 是 实 
体 ; 如 果 这 些 器 物 是 随葬 品 ,并 作为 墓葬 群 分 期 的 依据 ,相应 的 器 物 就 是 其 出 土 墓 葬 的 属 
性 了 。 


2.2 属性 的 定量 描述 和 数据 的 类 型 


考古 实体 的 属性 是 多 种 多 样 的 。 描 述 实 体 属 性 的 数据 类 型 基本 上 可 以 分 成 三 类 :名 
称 属性 或 名 称 变量 ,有 序 属性 或 有 序 变量 ,以 及 数值 属性 或 数值 变量 。 以 陶 豆 为 例 , 其 纹 
饰 和 陶 质 等 属性 是 定性 属性 ,很 难 用 数值 来 描述 ;而 反映 其 形状 的 诸 属 性 ,如 陶 豆 的 高 
度 、 其 盘 直 径 、 盘 深 、 柄 \ 底 高 、 底 直径 等 可 以 用 数值 来 描述 , 属 数量 特征 。 因 此 考古 资料 
定量 化 以 后 的 数据 类 型 是 不 一 样 的 ,处 理 不 同类 型 数据 的 数学 方法 也 是 不 一 样 的 。 


2.2.1 名 称 属 性 或 名 称 变量 


实体 的 某 些 属性 反映 为 若干 种 不 同 的 状态 ,而 对 于 每 个 个 体 ,只 能 是 处 于 其 中 的 一 
种 状态 。 例 如 陶器 的 底部 形态 可 以 是 平底 、 尖 底 、 球 面 底 、 圈 足 底 等 不 同 的 状态 。 其 纹饰 
可 以 有 强 纹 、 药 纹 、 玄 纹 、 指 刻 纹 等 。 但 每 个 陶器 实际 的 底部 形态 和 纹饰 只 能 是 固定 的 一 
种 ,例如 平底 和 攻 纹 。 描 述 陶 器 底部 形态 和 纹饰 的 属性 就 是 名 称 属 性 ,名 称 属 性 也 称 为 
名 称 数据 或 名 称 变量 。 对 陶器 的 底部 形态 这 个 名 称 属性 的 定量 化 ,可 以 用 1.2.3.4 四 个 
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数字 依次 代表 平底 、 尖 底 、 球 面 底 和 图 足 底 , 即 对 于 某 尖 底 的 陶器 ,描述 其 底部 形状 的 变 
量 的 取 值 是 2。 这 里 这 些 数 字 仅仅 是 符号 ,它们 之 间 不 存在 大 小 的 关系 ,也 不 能 进行 一 般 
的 算术 加 减 运算 ,数学 运算 符 “> "和 ”< "也 不 能 应 用 于 名 称 变量 。 我 们 同样 可 以 用 А. 
BCD 四 个 符号 依次 来 描述 平底 、 尖 底 、 球 面 底 和 图 足 底 。 因 此 名 称 变量 的 定量 化 实际 
上 是 符号 化 ,而 不 是 数值 化 。 定 量化 是 比 数值 化 更 为 广泛 的 一 个 概念 。 

需要 指出 ,对 于 所 研究 的 实体 群 ,描述 其 某 个 名 称 属性 的 符号 的 数目 应 组 成 一 个 完 
整 的 集合 ,同时 各 符号 所 描述 的 状态 间 应 该 属 同一 层次 并 是 互 斥 的 , 即 每 个 实体 必须 处 
于 其 中 的 某 一 状态 ,同时 也 只 能 处 于 其 中 的 一 种 状态 。 例 如 ,我 们 不 能 用 有 纹 、 无 纹 、 强 
纹 ` 葛 纹 四 个 状态 组 成 一 个 “组 合 " 来 描述 陶器 的 纹饰 。 因 为 有 纹 与 无 纹 已 组 成 完整 的 集 
合 , 它 们 又 是 互 斥 的 。 至 于 是 绳 纹 或 草 纹 , 那 是 有 纹 状态 的 下 面 一 个 层次 的 属性 。 但 是 
如 果 把 无 纹 即 素面 看 成 纹饰 的 一 种 状态 ,那么 素面 ` 绳 纹 、. 草 纹 和 方 格 纹 等 可 组 成 同 层次 
属性 的 完整 集合 。 名 称 属性 是 考古 学 中 常常 遇 到 的 。 属 性 的 定义 和 应 包括 哪 几 种 状态 
才 组 成 完整 的 集合 ,应 是 考古 学 家 根据 具体 的 研究 内 容 来 确定 的 。 但 定义 必须 明确 清 
晰 ,不 能 含糊 不 清 。 

名 称 变量 中 的 一 种 特殊 情况 是 二 元 变量 。 这 里 属性 只 能 处 于 两 种 状态 之 中 的 一 种 。 
例如 入 的 性 别 必 须 是 男 或 是 女 。 又 如 某 动 物种 在 某 个 动物 群 中 出 现 或 缺失 ,器 物 有 无 纹 
饰 等 ,两 者 必 居 其 一 。 这 两 种 互 斥 的 状态 组 成 了 完整 的 集合 。 二 元 属性 的 取 值 一 般 用 
“0”" 和 “1" 两 个 值 来 表示 。 二 元 属性 是 考古 学 中 常见 的 属性 ,本 书后 面 将 介绍 一 些 专 门 的 
数学 方法 来 处 理 二 元 变量 。 


2.2.2 有 序 属性 或 有 序 变 量 


有 序 属性 与 名 称 属 性 相似 ,也 反映 为 实体 的 某 个 属性 可 以 处 于 多 个 不 同 状 态 中 的 某 
一 个 ,其 不 同 之 处 是 有 序 属性 的 各 状态 之 间 有 一 定 的 顺序 关系 。 例 如 在 分 析 幕 葬 出 土 的 
人 肯 的 年 龄 组 成 时 ,把 人 肯 按 年 龄 段 分 成 婴儿 、 儿 童 、 少 年 .青年 、 壮 年、 中 年 和 老年 等 7 
个 的 状态 ,这 7 个 状态 是 有 顺序 关系 的 ,因此 人 骨 的 年 龄 段 是 人 骨 的 某 种 有 序 属 性 。 这 
里 也 可 以 用 1,2,3,4,5,6,7 等 七 个 数字 来 相应 地 描述 这 七 个 状态 ,这 时 数字 的 大 小 反映 
顺序 的 位 子 ,数字 之 间 的 差 反映 两 个 状态 之 间 相 隔 多 少 位 。 它 们 之 间 的 减法 运算 也 是 有 
意义 的 ,表示 2 个 状态 相距 几 个 序 位 。 数 学 运算 符 “ > ”和 “< ”对 有 序 变量 也 是 有 意义 
的 ,它们 表示 状态 的 先后 。 但 是 加 法 和 乘除 法 运算 对 于 有 序 变量 却 是 没有 意义 的 。 

考古 学 研究 中 常见 的 有 序 变量 有 器 物 和 墓葬 等 实体 的 分 期 .地层 的 次 序 ( 第 几 自 然 
层 或 第 几 文 化 层 ) 和 沉积 物 的 粒度 (黏土 ӘН» ИН?» АН) 

应 当 指 出 ,有 序 变量 两 个 相 邻 状态 之 间 的 “差距 ”只 表示 顺序 的 次 序 ,而 不 表示 在 时 
间或 空间 上 的 数量 差距 。 举 例 来 说 地 层 有 一 定 的 次 序 , 但 各 层 的 厚度 可 以 不 一 样 ,其 堆 
积 延 续 的 时 间 跨 度 也 完全 可 以 不 一 样 。 


2.2.3 数值 属性 或 数值 变量 


可 以 用 数值 来 描述 的 属性 称 为 数值 属性 或 数值 变量 ,这 是 最 常见 的 一 种 属性 。 各 墓 
语 出 土 的 某 种 器 物 的 数量 及 其 百分比 是 数值 属性 ,器 物 的 几何 尺寸 和 重量 ,陶瓷 和 青铜 
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器 化 学 组 成 中 各 元 素 的 含量 都 是 数值 属性 。 数 值 变量 可 以 直接 参与 通常 的 各 种 数学 运 
算 。 数 值 变量 又 分 成 离散 型 和 连续 型 两 类 ,如 某 种 器 物 出 现 的 次 数 只 能 是 1.2、…… 等 正 
整数 表示 , 属 离散 型 数值 变量 ;而 物体 的 长 度 、 重 量 等 则 可 以 用 小 数 来 表示 ,就 是 连续 型 
数值 变量 了 。 有 的 书 中 还 把 数值 变量 分 为 比例 量 和 区 间 量 ,在 本 书 中 不 拟 详细 讨论 它们 
之 间 的 差别 ,数值 变量 中 的 绝 大 多 数 是 比例 量 。 


2.24 ”变量 的 层次 和 数据 类 型 之 间 的 转换 


上 面 所 述 的 三 种 变量 的 层次 是 不 同 的 ,从 高 到 低 依次 为 数值 变量 、 有 序 变量 和 和 名称 
变量 。 为 什么 要 注意 属性 或 数据 的 类 型 呢 ? 这 一 方面 反映 了 实体 的 属性 本 身 的 性 质 不 
同 , 另 一 方面 各 种 数据 处 理 的 方法 对 数据 的 类 型 有 一 定 的 要 求 ,处 理 数 值 数据 的 方法 不 
一 定 能 用 于 处 理 名 称 数据 , 反 过 来 也 是 这 样 。 例 如 数值 变量 间 的 关系 用 皮尔 还 相关 系数 
表征 ,有 序 变 量 间 用 斯 皮尔 曼 等 级 相关 系数 ,而 Ф 和 了 关联 系数 则 表征 名 称 变量 间 的 关 
联 强度 。 需 要 说 明 变 量 层次 的 高 低 与 变量 在 课题 研究 中 重要 性 的 高 低 并 没有 必然 的 联 
系 , 层 次 偏 低 的 名 称 变量 在 考古 学 研究 中 经 常 起 到 十 分 重要 的 作用 。 

不 同类 型 的 数据 在 某 些 情况 下 是 可 以 转换 的 。 例 如 沉积 物 的 粒度 是 有 序 变量 ,但 如 
果 我 们 用 蒜 土 \、 粉 沙 、 细 沙 \ 粗 沙 、 砾 石 等 粒度 直径 的 平均 值 来 描述 ,就 是 数值 变量 了 。 一 
群 人 的 身高 是 数值 变量 ,但 把 身高 以 每 10 厘米 分 段 来 描述 ,就 是 有 序 变量 了 。 多 状态 的 
名 称 变量 如 颜色 : 红 、 黄 、 蓝 、 绿 、 白 ,有 时 可 用 红 与 非 红 两 种 状态 来 描述 ,这 时 多 状态 名 称 
变量 就 转化 为 二 元 变量 了 。 二 元 变量 的 一 个 优点 是 ,经 过 数据 标准 化 后 , 它 可 以 与 数值 
变量 一 起 参加 运算 。( 关 于 数据 的 标准 化 本 书后 面 会 介绍 。) 


2.3 考古 器 物 形状 的 定量 描述 


本 节 将 介绍 对 器 物 形状 作 定量 描述 的 几 种 方法 。 陶 器 和 青铜 器 是 考古 学 研究 中 最 
常见 和 重要 的 实体 。 器 物 可 分 成 瓶 、 融 、 饶 、 豆 等 器 物种 类 ,是 依靠 考古 学 的 直观 知识 和 
传统 进行 的 ,一 般 容易 得 到 共识 。 器 物 的 名 称 如 瓶 、 珊 、 铅 、 豆 等 也 就 成 为 判别 器 物 分 类 
属性 的 名 称 变 量 。 每 种 器 物 的 分 型 定式 是 判断 考古 学 文化 的 地 区 类 型 和 时 代 的 重要 因 / 
素 。 但 器 物 准 确 的 分 型 定式 却 远 非 简单 的 任务 ,这 依赖 于 考古 学 家 的 经 验 和 学 识 。 能 否 
对 考古 器 物 的 形制 作 定量 描述 ,并 在 此 基础 上 对 器 物 分 型 分 式 呢 ? 这 是 比较 困难 的 。 考 
古 器 物 的 形制 属性 一 般 是 名 称 数据 ,如 口 沿 的 形式 、 须 、 跑 以 及 底部 的 形状 等 , 较 难 用 数 
值 来 表示 。 但 有 些 轮 制 的 器 物 因 辐射 对 称 , 有 较为 简单 有 效 的 方法 对 其 形状 作 数 值 描 
述 。 下 面 举例 说 明 对 轮 制 器 物 的 数值 化 描述 。 

例 一 , 轮 制 器 物 的 定量 描述 方法 之 一 。 图 2-1 所 示 为 一 轮 制 的 似 圆柱 形 瓶 ,可 以 把 它 
的 高 度 分 成 6 等 份 ,然后 记 下 高 度 h 和 高 度 6 等 分 处 7 个 截面 的 直径 数值 dj, 4, 4, 4, 
ds, 4, qo EF d 是 瓶 的 口径 ,dj 是 底 径 。 高 度 加 上 7 个 按 次 序 排列 的 直径 值 ,这 8 个 
按 次 序 排列 的 数值 变量 就 组 成 描述 瓶 的 形状 的 一 组 数据 ,写成 :( h, а, 4, 4, 4, ds, 
ds, 中 )。 对 每 一 个 瓶 而 言 ,这 8 个 数 或 这 一 数组 是 唯一 确定 的 ;而 不 同 的 瓶 用 不 相同 的 另 
外 8 个 数 来 描述 。 每 个 瓶 与 每 组 数据 间 是 一 一 对 应 的 关系 。 如 果 适 要 对 瓶 的 形状 描述 
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更 精确 ,可 以 增加 沿 高 度 方向 的 等 分 点 , 辟 如 说 分 成 8 段 ,10 
段 或 更 多 的 段 。 这 时 数组 中 变量 的 数目 也 相应 增加 ,使 得 以 后 
进行 数据 处 理 时 花费 的 时 间 和 经 费 也 要 增加 。 这 里 需要 研究 
者 的 决策 ,分 成 几 个 等 分 较 爱 ,取决 于 瓶子 形状 的 复杂 程度 。 
RE 2-1 所 示 的 瓶子 分 成 6 段 到 8 段 就 够 了 ,基本 上 能 反映 出 
瓶 口 处 是 直 的 ,其 腹部 最 粗 处 的 大 致 高 度 和 直径 值 ,瓶子 最 细 
处 的 大 致 高 度 和 直径 值 等 。 但 这 种 描述 方法 也 有 一 定 的 缺点 。 
考虑 两 个 形状 相似 ,只 是 大 小 有 差别 的 瓶子 。 上 面 这 8 个 变量 
的 取 值 对 这 两 个 瓶子 都 会 有 明显 的 差异 ,不 能 合适 反映 两 瓶子 
间 形 状 的 相似 性 。 为 了 解决 这 个 问题 ,可 以 用 各 直径 和 高 的 比 
值 (dv b) 来 替代 直径 本 身 的 数值 。 这 时 描述 瓶 的 大 小 和 形状 
的 8 个 数值 为 (h, di/h, ds/h, ds/h, ds/h, ds/h, de/h, dy/h)， di 4 
对 于 两 个 形状 相同 仅 大 小 不 同 的 瓶子 ,8 个 变量 中 仅 第 一 个 变 图 ;1 对 辐射 对 称 形 器 物 
E h RR, CREMKE ERA, mem? AARTE 形态 的 一 种 数值 措 
变量 是 相同 的 。 述 方法 

例 二 , 轮 制 器 物 定量 描述 方法 之 二 。 对 轮 制 器 物 形 状 的 定 
量 描述 经 常 可 根据 其 外 观 特点 和 考古 工作 者 的 常识 找 出 一 些 形 态 特征 来 描述 。 例 如 本 
书 作 者 ( 陈 铁 梅 等 1989) 于 80 年 代 中 期 在 对 中 原 地 区 从 二 里 头 期 到 人 民 公 园 期 的 13 件 陶 
豆 进 行 分 析 时 , 曾 用 了 下 面 6 个 变量 ( 见 图 2-2) 对 陶 豆 形状 作 定量 描述 。 它 们 是 :(1) 陶 豆 
的 高 度 一 一 通 高 ,(2) 口 径 与 通 高 的 比值 ,(3) 柄 高 与 通 高 的 比值 ,(4) 盘 深 与 通 高 的 比值 ， 
(5) 陶 豆 最 大 直径 与 最 小 直径 的 比值 ,上 面 5 个 是 数值 变量 ;第 6 个 变量 描述 陶 豆 有 没有 
纹饰 ,用 二 元 变量 的 两 个 取 值 0 与 1 表示。 然后 用 主 成 分 分 析 方 法 处 理 了 这 样 定 量化 后 
的 数据 ,13 件 陶 豆 被 分 成 三 组 ,基本 上 与 二 里 头 期 ,二 里 岗 早 、 晚 期 相对 应 ,只 有 一 件 器 物 
是 例外 。 在 上 面 陶 豆 形状 的 定量 化 过 程 中 ,不 仅 应 用 了 通 高 ,直径 等 直接 度量 陶 豆 大 小 
尺寸 的 线性 尺度 ,而 且 应 用 了 一 系列 线性 尺度 量 的 比值 ,这 些 比值 反映 了 对 陶 豆 形状 一 
般 常 识 , 例 如 口径 与 通 高 比 反映 陶 豆 的 胖 瘦 , 柄 高 与 通 高 比 反映 是 高 柄 豆 还 是 矮 柄 豆 , 最 
大 直径 与 最 小 直径 比 反 映 是 粗 柄 豆 还 是 细 柄 豆 。 选 择 考古 器 物 的 常识 性 特征 是 定量 描 
述 器 物 形状 常用 和 很 有 效 的 方法 。 滕 馈 予 (2004) 对 侯 马 乔 村 墓地 陶器 分 期 时 也 采用 了 类 
似 的 方法 来 描述 器 物 的 形状 。 

例 三 ,对 于 非 圆 形 辐射 对 称 的 器 物 很 难 用 上 述 的 办 法 来 定量 描述 。 在 有 的 定量 考古 
学 的 书 中 介绍 一 种 称 为 马赛 克 的 方法 。 大 致 是 把 器 物 的 外 型 轮廓 画 在 一 张 方 格 纸 上 , 每 
个 方 格 是 编号 的 ,以 轮廓 线 是 否 通 过 某 个 方 格 用 0、1 表示 。 纸 上 有 多 少 个 方 格 就 用 多 少 
Ло 数 来 描述 这 个 器 物 。 如 方 格 小 ,描述 更 精细 确切 ,但 方 格 的 总 数 就 多 ,数据 量变 
大 。 本 书 不 认为 马赛 克 方 法 很 适用 于 考古 器 物 的 描述 ,因为 数据 量 太 大 ,计算 起 来 十 分 
复杂 不 方便 ,更 重要 的 是 不 少 器 物 的 外 型 轮廓 是 与 观察 的 角度 有 关 的 ,从 不 同 的 角度 观 
测 ,器 物 的 外 型 轮廓 线 是 不 一 样 的 。 再 之 ,马赛 克 方 法 没有 充分 考虑 考古 器 物 常识 性 的 
特征 。 总 之 对 非 圆 形 辐射 对 称 的 器 物 ,特别 对 陶 高 等 形状 复杂 的 器 物 准 确 有 效 的 定量 描 
述 是 一 个 需要 进一步 研究 的 问题 。 
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| 口径 (最 大 径 ) | 


а 
4 
ж Ж 
ж 
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2.4 考古 实体 的 描述 中 属性 的 选择 


每 一 类 考古 实体 的 属性 是 多 种 多 样 的 ,不 可 能 也 没有 必要 对 其 所 有 的 属性 都 进行 描 
述 和 研究 。 属 性 的 选择 决定 于 所 要 研究 的 课题 。 例 如 发 气 了 一 个 医 群 ,要 研究 的 问题 是 
该 氏族 墓地 贫 富 分 化 的 情况 。 这 样 墓穴 的 大 小 ,每 个 医 出 土 的 随 芋 品 的 数量 和 质量 等 是 
最 需要 注意 的 属性 ,此 外 也 许 还 要 注意 墓 主人 的 性 别 。 幕 的 位 置 和 朝向 可 能 不 是 最 重要 
的 属性 。 如 果 要 研究 墓地 中 各 幕 葛 的 时 代 早 晚 ,那么 墓葬 在 墓地 中 的 位 置 , 随 葬 器 物 的 
式 别 就 成 为 应 该 重视 的 属性 了 。 因 此 ,属性 的 选择 是 需要 考古 学 家 根据 其 研究 目的 和 知 
识 来 决定 ,没有 人 可 以 代 疱 越 租 的 。 对 选 定 的 属性 怎样 定量 化 同样 需要 由 考古 学 家 的 知 
识 来 决定 的 。 

这 里 要 强调 两 点 :(1) 我 们 不 是 对 单个 实体 进行 定量 化 描述 ,而 是 对 整个 一 类 实体 作 
定量 化 描述 ,是 对 整个 一 类 实体 的 某 个 或 某 几 个 特征 的 多 种 表现 形态 作 定 量 描述 。(2) 
不 同 的 考古 学 家 对 同类 实体 作 定 量 描述 的 选择 可 能 是 不 同 的 ,因为 他 们 可 能 有 不 同 的 侧 
重点 , 选 几 个 属性 ,怎样 对 属性 进行 定量 化 ,都 由 考古 学 家 自己 来 决定 ,依赖 于 考古 学 家 
的 知识 和 个 人 的 选择 。 因 此 定量 描述 的 方法 不 是 唯一 的 ,不 排除 研究 者 的 主观 倾向 性 ， 
不 过 这 种 主观 性 ,不 是 随意 和 隐藏 的 ,而 是 摆 在 桌面 上 的 ,大 家 都 看 得 见 的 。 
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对 一 批 同 层次 的 考古 实体 的 有 关 属 性 经 选 定 ,并 加 以 定量 描述 后 ,所 得 的 数据 用 表 
格 的 形式 表示 出 来 ,就 是 原始 数据 统计 表 。 这 是 完整 的 ,定量 化 的 原始 资料 ,是 以 后 对 这 
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批 考 古 实 体 进行 研究 分 析 , 如 分 类 ,排序 , 比 对 的 基础 资料 。 表 2-1 是 原始 数据 统计 表 的 
一 个 实例 ,是 对 一 批 幕 莫 的 属性 的 描述 。 表 中 的 每 一 行 记 录 一 个 摹 葛 的 诸 属性 的 取 值 ， 
每 一 列 记录 一 个 属性 在 所 有 摹 葬 中 的 取 值 。 


表 21 某 莫 地 各 莫 莱 情况 的 描述 和 随 莱 品 统计 


ЖЕЛЕ) ХХ БЕЗЕ in ААЖ 


共 统 计 了 N 个 墓葬 ,每 个 医药 选取 了 8 个 属性 或 变量 ( 摹 莫 的 序号 不 列 为 属性 ) , 它 
们 分 别 是 :位 于 第 2 列 的 变量 1 反映 某 号 墓葬 所 在 的 幕 区 ,在 A 区 ,还 是 B 区 , 属 名 称 变 
量 。 变 量 2, 莫 主人 的 性 别 是 男 还 是 女 ,用 1 表示 男 , 用 0 表示 女 , 属 名 称 变量 中 的 二 元 变 
量 。 其 中 第 4 号 墓 中 遗 骨 缺 失 ,无 法 判别 幕 主 人 性 别 , 用 一 种 特殊 的 符号 “X" 表 示 , 称 为 
缺失 值 。 在 原始 数据 中 某 个 (或 某 几 个 ) 实 体 的 某 个 (或 某 几 个 ) 属 性 无 法 观测 ,因此 数据 
缺失 的 情况 是 经 常 发 生 的 。 我 们 不 必 因 某 实体 的 一 个 或 两 个 属性 无 法 观测 而 把 该 实体 
从 研究 对 象 中 会 弃 ,在 原始 数据 统计 表 中 可 以 先 用 一 个 特殊 的 符 导 来 表示 ,以 后 在 处 理 
分 析 这 批 数据 时 ,有 一 系列 的 方法 来 处 理 缺 失 值 。 变 量 3, 幕 穴 的 大 小 ,这 里 用 3 表示 大 
莫 , 用 2 表示 中 幕 , 用 1 ЛМЕ, ҚТЖ, Жыл 为 墓道 长 度 , 属 数值 变量 。 变 量 
5 至 8 统计 了 4 种 器 物 在 每 个 墓葬 中 的 数目 ,它们 都 是 数值 变量 。 表 中 的 第 10 列 统计 每 
个 幕 中 四 类 随葬 器 物 的 总 数 。 其 实 它 是 第 6 至 第 9 列 各 数值 之 和 ,是 一 个 派生 的 数值 ,在 
原始 数据 统计 表 中 可 列 可 不 列 。 总 之 原始 数据 表 的 每 一 行 反映 某 个 实体 各 属性 的 取 值 ， 
是 对 实体 的 描述 ;而 每 一 列 给 出 某 个 属性 对 所 有 实体 取 值 情况 ,反映 变量 取 值 的 分 布 情 
况 。 

这 张 原 始 数据 统计 表 可 以 方便 地 帮助 观察 一 系列 的 问题 ,如 随葬 品 的 多 寡 是 否 与 莫 
主人 的 性 别 有 关 ,是 否 与 医药 的 大 小 或 与 幕 区 有 关 。 随 芋 品 的 多 寡 是 随机 的 ,还 是 存在 
个 别 幕 葬 其 随 项 品 特 别 多 的 特殊 情况 。 也 可 以 研究 某 两 个 或 某 三 个 随葬 器 物 之 间 是 否 
有 关联 , 即 寻求 是 否 存在 相对 稳定 的 器 物 组 合 , 还 可 以 按照 随 匡 器 物 的 情况 对 墓 莫 进行 
分 期 等 。 

前 文 提 到 对 中 原 地 区 从 二 里 头 期 到 人 民 公园 期 的 十 多 件 陶 豆 进行 分 析 工 作 , 对 每 个 
陶 豆 的 形态 用 了 陶 豆 的 “ 通 高 " “口径 与 通 高 的 比值 "等 6 个 变量 来 描述 。 其 结果 也 是 列 
在 一 张 原始 数据 统计 表 中 的 ( 见 第 十 六 章 , 表 16-10) ,并 以 这 张 表 的 数据 作为 出 发 点 对 这 
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批 陶 豆 进行 分 期 研究 的 。 - 

其 实 原始 数据 统计 表 在 传统 考古 学 中 也 是 常用 的 。 在 考古 报告 中 很 多 资料 就 是 用 
表格 的 形式 发 表 的 。 可 能 有 些 表 格 中 还 夹杂 着 一 些 文字 描述 ,这 也 是 无 妨 的 。 但 如 果 要 
对 文字 描述 的 内 容 与 其 他 属性 合 在 一 起 研究 , 则 还 需要 对 这 些 文字 描述 内 容 作 定量 处 
理 。 表 格 也 是 一 种 表达 思想 的 语言 形式 ,但 它 比 用 通常 的 文字 表述 有 简单 明了 的 优点 。 
表 2-1 也 可 以 用 通常 的 文字 表述 ,横向 第 一 行 应 读 作 :第 一 号 墓 在 A 区 , 墓 主 人 是 男性 ， 
属 大 墓 ,墓道 长 度 为 2 米 ,4 种 器 物 各 出 了 多 少 件 。 第 二 行 表述 第 二 号 墓 的 情况 ……。 该 
表 也 可 以 竖 向 读 : 第 一 列表 述 A 区 和 B 区 各 有 了 哪些 医药 ,第 二 列表 述 ……。 通 常 的 文字 
表述 显然 元 长 史 苏 ,不 如 表格 表述 简明 。 表 格 表述 的 另 一 优点 是 把 数据 资料 按 一 定 的 规 
则 列 在 一 起 ,有 时 对 表格 的 初步 观察 就 能 发 现 数据 中 隐 含 的 一 些 规律 。 原 始 数 据 统 计 表 
可 以 用 计算 机 中 常用 的 电子 表格 软件 来 建立 ,例如 微软 公司 Office 软件 中 的 Excel 电子 表 
格 软 件 。 对 于 考古 资料 的 定量 研究 ,用 电子 表格 软件 来 建立 原始 数据 统计 表 是 至 关 重要 
的 ,因为 各 种 分 析 处 理 数据 的 软件 都 可 以 直接 调用 电子 表格 资料 ,而 且 电 子 表格 本 身 也 
可 以 对 表 中 的 数据 进行 简单 的 统计 运算 ,如 计算 极 值 . 平 均值 和 标准 差 等 ,可 以 对 表 中 的 
研究 对 象 (考古 实体 ) 进 行 各 种 各 样 的 分 组 、 排 序 等 ,此 外 电子 表格 还 能 够 把 表 中 的 数据 
用 图 形 的 形式 表达 出 来 ,从 而 观察 数据 中 所 隐藏 的 规律 。 

最 后 有 两 点 实用 的 提示 :(1) 建 立 了 原始 数据 的 电子 表格 文件 后 必须 仔细 检查 数据 
记录 有 没有 错误 ,因为 这 是 基础 资料 数据 ,后 面 要 进行 的 数据 分 析 处 理 都 是 建立 在 这 张 
表格 的 基础 之 上 的 。(2) 原 始 数据 的 电子 表格 文件 应 妥善 保存 ,因为 在 计算 机 数据 处 理 
过 程 中 ,电子 表格 是 很 容易 被 改写 的 ,而 基础 数据 是 不 应 随便 被 改动 的 。 
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考古 学 研究 中 经 常 需要 对 一 批 同 层次 考古 实体 的 某 个 属性 的 观察 测量 数据 进行 统 
计 分 析 。 例 如 ,统计 分 析 某 墓地 人 骨 的 年 龄 , 某 地 区 某 时 代 段 聚落 的 面积 ,一 批 青铜 器 的 
含 锡 量 或 者 一 批 砍 砸 器 的 重量 等 。 这 些 人 骨 年 龄 .遗址 面积 、 含 锡 量 或 石器 重量 等 实际 
观测 结果 ,构成 一 个 单 参数 的 数据 组 ,写成 Ху, Xoven Х„, ЕЙ” ж л ЖОЕ 
的 编号 ,n 表示 该 数据 组 中 数据 的 数目 .这 样 的 数据 组 称 为 由 п 个 实体 组 成 的 样本 ,n 就 
是 样本 的 容量 。 样 本 是 同类 实体 的 集合 ,这 个 概念 在 本 书 的 下 面 章节 将 经 常 使 用 。 单 参数 
的 数据 组 ,或 单 参数 的 样本 实际 上 就 是 第 二 章 中 原始 数据 统计 表 ( 表 2-1) 中 每 一 列 数据 
的 集合 。 

对 这 类 数据 组 数据 进行 简单 的 分 析 统 计 ,往往 能 揭示 出 某 些 简 单 的 但 可 能 是 重要 的 
关于 考古 现象 中 存在 的 规律 。 例 如 在 研究 聚落 面积 的 例子 中 ,考古 学 家 会 希望 了 解 这 些 
聚落 按 其 面积 的 大 小 是 怎样 分 布 的 ,聚落 的 平均 面积 有 多 大 ,聚落 面积 间 的 相互 差异 有 
多 大 等 。 对 聚落 面积 样本 数据 的 整理 ,就 能 反映 出 本 地 区 该 时 代 段 聚落 面积 的 分 布 规 
律 ,就 能 与 其 他 地 区 或 其 他 时 代 段 的 聚落 面积 数据 进行 比较 ,从 而 进一步 探讨 人 口 与 社 
会 结构 随 空间 和 时 间 的 变化 等 。 又 例如 在 研究 分 析 某 一 类 青铜 器 的 含 锡 量 时 ,考古 学 家 
必然 会 关心 含 锡 量 的 代表 值 和 分 布 范围 等 因素 ,这样 才能 进一步 与 其 他 类 别 青 钢 器 的 锡 
含量 作 比 较 , 检 验 各 类 青铜 器 物 的 锡 含量 是 否 符合 “六 齐 " 之 说 等 。 相 应 地 就 要 研究 由 到 
落 面积 和 锡 含 量 观 测 值 所 组 成 的 数据 组 的 (1) 数 据 的 分 布 情况 ,(2) 数 据 的 代表 值 或 中 心 
值 ,(3) 数 据 相对 于 代表 值 或 中 心 值 的 离散 程度 。 

对 一 组 数据 的 分 布 .中 心 值 和 离散 程度 的 观察 分 析 , 被 称 之 为 对 数据 资料 的 描述 性 
统计 。 描 述 性 统计 往往 是 考古 资料 定量 分 析 的 第 一 步 , 很 多 进一步 的 定量 研究 都 是 建筑 
在 描述 性 统计 的 基础 之 上 的 。 


31 考古 样本 中 实体 的 次 数 分 布 表 和 分 布 图 


样本 中 实体 的 分 布 是 指 一 组 实体 相对 于 其 某 个 属性 观测 值 的 分 布 或 分 配 。 例 如 表 
3-1 记录 了 青海 乐 都 柳 湾 墓地 成 年 女性 人 肯 数 目 按 年 龄 段 的 分 布 。 


ӛзі 柳 湾 墓地 成 年 女性 人 骨 按 年 龄 段 的 分 布 表 


表 中 的 第 二 行 反映 实体 按 年 龄 段 的 次 数 分 布 ,也 称 频 数 分 布 或 频次 分 布 。 第 三 行 是 
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百 分 值 , 称 为 频率 分 布 。 因 为 年 龄 段 是 有 序 变量 ,可 将 第 三 行 的 百 分 值 累计 相 加 。 第 四 
行 是 累积 百分数 。 

实体 的 分 布 除 用 表格 表示 外 ,也 可 用 图 来 表示 ,而 且 分 布 图 往往 比分 布 表 能 更 直观 地 
显示 出 实体 分 布 的 规律 。 常 用 的 图 形 有 直方 图 \、 圆 辨 图、 折线 图 和 后 面 3.3.3 节 中 将 介绍 的 
箱 点 图 等 。 图 3-1a、3-1b、3-lc 分 别 用 前 三 种 图 形 表示 柳 湾 墓地 成 年 女性 人 肯 按 年 龄 段 分 布 
的 情况 。 图 3-1a 是 频数 分 布 的 直方 图 ,其 横 坐 标 从 左 到 右 表示 从 青年 到 老年 , 纵 坐 标 显示 
各 年 龄 段 的 人 骨 数 。 如 果 纵 坐标 用 相应 年 龄 侦 人 骨 数 所 占 的 百分数 来 刻度 , 称 为 频率 分 布 
直方 图 。 因 为 年 龄 段 是 有 序 变量 ,直方 图 上 每 段 的 宽度 可 以 是 任意 的 ,有 的 书 上 把 有 序 变 
量 的 直方 图 称 之 为 长 条 图 。 图 3-1b 是 圆 斩 图, 它 反 映 频率 分 布 ,每 个 圆 办 .或 扇形 面积 的 大 
小 正比 于 相应 组 段 的 百分数 ,各 崩 形 面积 的 总 和 组 成 一 个 圆 。 图 3-le 是 百 分 累 加 折线 图 ， 
反映 某 年 龄 段 以 前 死亡 的 女性 人 骨 的 累计 百分数 ( 含 相 应 年 龄 段 )。 
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3-1c ШВИНИЯХЕЛЕНЕНЕ 
段 的 分 布 图 (e) 百 分 累计 频率 图 
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柳 湾 的 例子 是 考古 实体 按 有 序 变 量 的 分 布 。 下 面 考察 实体 按 数值 属性 取 值 的 分 布 。 
英国 Dorset 地 区 晚 新 石器 时 代 巨 石 文化 纪念 性 建筑 物 的 35 个 石柱 柱 洞 直径 的 测量 什 统 
计 如 下 (从 细 到 粗 排 列 ,单位 为 em) :25, 27, 28, 30, 34, 35, 38, 38, 38, 39, 40, 40, 40, 
42, 43, 43, 43, 44, 45, 47, 47, 47, 48, 48, 48, 48, 48; 49, 50, 50, 53; 57, 57, 58, 66 
(Wainwright,1979)。 这 里 直径 是 数值 变量 ,可 连续 取 值 。 为 了 建立 柱 洞 数目 按 直径 的 分 
布 表 , 先 要 对 直径 值 分 段 ;每 段 的 宽度 当然 应 该 是 相等 的 。 分 段 的 范围 不 同 ,分 布 表 也 有 
些 差别 。 表 3-2a 和 3-2b 分 别 是 取 10cm 和 5cm 为 段 的 分 布 表 ,相应 分 成 5 段 和 9. 段 。  . 


Ж 3-2a Dorset 地 区 巨石 文化 35 Енен»! 以 10 кезінді. 
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Ж 3-2b Dorset 地 区 巨石 文化 35 个 石柱 柱 洞 按 直 径 测 量 值 的 分 布 表 (以 5cm 为 段 ) 
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从 表 3-2 可 以 看 出 ,多数 柱 洞 的 直径 在 40 一 49cm 之 间 , 离 这 个 中 心 范围 愈 远 , 柱 洞 数 
愈 少 ,而 且 粗 细 两 端的 分 布 基本 对 称 。 为 了 建立 分 布 表 ,并 能 从 中 较为 容易 地 观察 到 柱 
洞 数 按 直径 分 布 的 规律 ,有 一 个 技术 性 的 问题 , 即 应 该 取 多 少 厘 米 作为 分 段 单位 ,或 者 说 
应 把 柱 洞 的 全 部 直径 范围 分 成 几 个 等 份 合适 。 分 段 或 分 组 数 太 少 ,不 易 分 辨 出 分 布 的 细 
致 规律 ;分 组 太 多 ,每 组 的 实体 数 会 很 少 ,甚至 有 的 段 中 没有 实体 ,同样 不 能 显示 出 分 布 
的 规律 性 。 一 般 来 说 如 果 样 本 的 实体 数 多 ,相应 可 以 多 分 儿 组 。 作 为 一 种 实用 的 方法 ， 
可 以 以 样本 中 实体 数目 的 平方 根 作为 分 组 数目 。 对 于 35 个 柱 洞 ,35 的 平方 根 值 约 为 6， 
那么 大 致 可 分 为 6 组 左右 。 因 此 看 来 前 面 分 5 组 与 9 AREA. HAARE B 
该 是 互相 排斥 ,而 且 组 成 完备 的 集合 , 即 每 个 实体 都 能 分 到 某 一 组 而 且 只 能 归属 于 该 组 。 

分 布 情 况 也 可 用 图 来 表示 。 图 3-2 是 Dorset 石 柱 的 柱 洞 按 直径 的 频率 分 布 直方 图 。 
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_ 信 的 频率 分 布 直方 图 (a) 以 10cm 为 间隔 。 值 的 频率 分 布 直方 图 (b) 以 Seri 为 间隔 下 


30.0 40.0 50.0 60.0 70.0 


24 ”定量 考古 学 


图 中 横 坐 标 表示 直径 值 , 横 轴 上 每 段 的 宽度 都 是 相等 的 ,并 正比 于 直径 段 的 取 值 范围 ,图 
3-2а 和 图 3-2b 分 别 以 10cm 和 5cm 为 分 段 宽度 。 纵 坐标 表示 每 直径 段 中 柱 洞 数 所 占 的 百 
分 数 。 对 于 频率 分 布 ,还 可 以 将 每 段 的 纵 坐 标 值 被 每 段 的 宽度 去 除 , 得 到 的 商 值 是 单位 
宽度 的 百分数 或 单位 宽度 的 频率 ,这 个 “ 商 值 " 称 为 频率 密度 。 第 四 章 将 专门 讨论 频率 密 
度 的 分 布 。 

另 有 一 种 与 直方 图 相似 的 显示 实体 分 布 的 图 形 显示 方法 , 称 荃 叶 图 (stem-and-leaf 
ріс) ЖІГІ 3-3 与 直方 图 3-2b 显示 的 内 容 是 相似 的 。 荃 叶 图 用 直径 值 的 十 位 数 ( 本 图 
以 每 5cm 为 单位 ) 组 成 茎 ,并 作为 莹 上 节点 之 间 的 间隔 ;而 叶 是 由 直径 数值 的 个 位 数组 
成 ,在 荃 的 相应 节点 上 水 平方 向 向 右 ( 或 向 左 ) 生长 。 葵 叶 图 比 直方 图 保留 更 多 的 信息 ， 
因为 个 位 数 的 数值 也 显示 在 图 上 。 
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6 
图 3-3 Dorset WX E A XE EHH AI E ІІ ІН Ш(5ст 间隔 ) 
各 种 统计 软件 ,例如 常用 的 统计 软件 SPSS (“用 于 社会 科学 的 统计 软件 包 ”) 等 ,一 般 
都 能 把 这 些 分 布 图 画 出 来 。 


3.2 样本 中 数据 的 代表 值 , 集 中 量 数 


3.1 节 讨论 了 一 组 观测 数据 ,或 一 个 样本 可 以 用 样本 中 实体 的 分 布 表 或 分 布 图 来 描 
述 , 它 直观 地 显示 数据 分 布 的 规律 。 对 于 观测 数据 属 数值 变量 的 情况 ,也 可 以 用 少数 几 
个 特征 量 来 描述 或 反映 数据 组 的 整体 分 布 面 貌 。 这 类 特征 量 主要 是 两 个 :(1) 数 据 组 的 
代表 值 ,又 称 集中 量 数 ;(2) 反 映 数据 离散 程度 的 差异 量 数 。 此 外 还 有 反映 数据 相对 于 其 
中 心 是 否 对 称 的 特征 量 一 一 偏 斜 度 等 。 样 本 的 这 些 特征 量 是 可 以 根据 样本 中 的 观测 数 
据 计 算得 到 的 ,这 些 特征 量 称 为 统计 量 。 统 计量 不 仅 简化 了 对 数据 组 的 描述 ,而 且 它 们 
是 进一步 处 理 数据 的 基础 。 | 

样本 的 集中 量 数 又 称 数据 的 中 心 趋势 , 它 是 一 组 数据 的 代表 值 。 代 表 性 是 与 预测 有 
关 的 ,例如 知道 了 北京 大 学 男生 的 平均 身高 ,我 们 用 此 值 去 预测 任何 一 位 北大 未 知 男生 
的 身高 ,应 该 比 用 其 他 数值 去 预测 最 接近 真实 ,误差 最 小 。 集 中 量 数 可 以 用 多 种 方法 来 
定义 ,最 常用 的 统计 量 是 样本 的 算术 平均 值 ,或 简称 平均 值 、 均 值 , 此 外 还 有 中 位 数 (或 称 
中 数 ) 和 众 值 。 
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3.2.1 样本 平均 值 的 定义 和 计算 


假设 有 样本 或 数据 组 为 |ХЛ,,Х,, , ,| ,其 平均 值 了 定义 如 下 
下 = (Ху Хуа еее + Х„)/п = Хип (3-1) 
用 上 式 计 算 3.1 Ë розе 地 区 巨石 文化 35 个 柱 洞 直径 的 平均 值 , 即 将 35 个 直径 值 
求 和 ,再 除 以 35, 可 得 X = 43.8 厘 米 , 柱 洞 直 径 的 原始 测量 数据 用 两 位 有 效 数字 表示 ,而 
平均 值 用 了 三 位 有 效 数 字 。 
当 数 据 组 可 以 分 组 时 ,各 分 组 都 可 计算 各 自 的 平均 值 大 ,而 且 这 些 分 组 平均 值 以 各 
分 组 样本 的 容量 (频次 )m 或 频率 f; 为 权 的 计 权 平均 正好 是 全 组 的 总 平均 值 ,如 下 面 公式 
所 示 。 
Х = Уа, = УХ, (3-2) 
Ж 3-3 显示 以 Dorset 地 区 巨石 文化 35 个 石柱 柱 洞 直径 为 例 分 组 求 平均 值 的 情况 。 
表 的 最 后 一 行 第 五 列 的 单元 格 给 出 全 部 石柱 直径 的 总 平均 值 为 43.8 厘米 ,和 公式 (3-2) 
的 计算 结果 是 一 致 的 。 有 时 为 了 方便 , 求 数 据 总 平均 值 时 不 去 计算 各 分 组 的 平均 值 , 而 
用 各 组 取 值 范围 的 中 心 值 М, 替代 各 分 组 的 平均 值 。 表 3-3 的 最 后 一 行 最 后 一 列 的 单元 


格 给 出 了 这 种 替代 后 计算 的 结果 > fM; = 43.07 厘米 ,与 平均 值 的 准确 值 43.8 厘米 稍 
有 偏离 。 当 数据 容量 ”很 大 ,分 组 可 更 细 , 而 每 组 区 间 很 窗 时 ,偏离 值 会 变 得 很 小 。 


26.67 
36.00 
45.00 
54.17 
66.00 


列 的 总 和 | 


3.2.2 中 位 数 和 其 他 的 集中 量 数 


另 一 个 常用 于 描述 样本 的 集中 量 数 是 中 位 数 ,或 中 数 ,也 称 中 值 。 其 定义 是 将 数据 
组 的 数据 按 大 小 次 序 排列 好 后 ,该 序列 中 央 的 那个 数 。 中 数 前 面 的 数据 数目 和 其 后 面 的 
数据 数目 正好 相等 。3.1 节 中 35 个 柱 洞 直径 值 的 中 数 是 44 厘米 , 它 是 35 个 柱 洞 按 照 它 
们 的 直径 值 从 小 到 大 排列 中 的 第 18 个 柱 洞 的 直径 值 。44 厘米 与 平均 值 43.8 厘米 非常 
接近 。 这 里 柱 洞 数 为 35 ,是 一 个 奇数 ,如果 样本 中 数据 的 数目 是 偶数 ,可 以 先 找到 中 央 的 
两 个 数据 ,再 取 这 两 个 数据 的 平均 值 作为 该 数据 组 的 中 数 。 

还 有 一 个 集中 量 数 是 众 数 , 它 是 由 数据 组 中 出 现 次 数 最 多 的 那个 数 来 决定 的 。35 个 
柱 洞 直径 值 中 出 现 最 多 的 数 是 48, 它 出 现 了 5 次 ,因此 这 组 数据 的 众 数 是 48, 它 与 平均 
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值 . 中 数 都 有 一 定 差 距 。 只 有 当 样 本 的 容量 非常 大 , 即 数 据 组 数据 数目 很 多 , 而且 实体 的 
分 布 接近 后 面 将 介绍 的 正 态 分 布 时 , 众 数 才 有 意义 ,其 数值 会 与 平均 值 和 中 数 非常 接近 。 
当然 原则 上 也 可 以 用 样本 的 几何 平均 值 \ 调 和 平均 值 等 统计 量 作 为 其 集中 量 数 的 指标 ， 
但 应 用 甚 少 , 这 里 不 作 讨论 。 


3.2.3 平均 值 和 中 位 数 的 比较 


对 于 数值 变量 ,样本 最 常用 的 集中 量 数 是 平均 值 ,因为 平均 值 有 严格 的 数学 定义 , 它 
是 很 多 统计 分 析 方 法 的 基础 ,而 且 平 均值 概念 在 日 常生 活 中 也 被 广泛 使 用 ,容易 被 理解 
和 接受 。 平 均值 作为 样本 的 代表 值 的 缺点 是 , 当 样 本 容量 不 太 大 时 平均 值 的 稳定 性 不 如 
中 数 , 它 受 极端 数据 的 影响 较 大 。 中 数 的 优点 是 它 表 达 较 低 一 半数 据 和 较 高 一 半数 据 的 
界限 , 受 极端 数据 的 影响 很 小 。 例 如 有 一 组 数据 12, 2.4, 2.5, 2.7, 3.0, 3.11, 它 的 平均 
值 和 中 数 分 别 为 2.62 和 2.6 。 如 果 数 组 中 加 进 一 个 极端 值 10, 平 均值 变 成 3.67, 而 中 数 
变化 却 不 大 , 取 值 为 2.7。 中 数 还 可 以 应 用 于 有 序 变量 。 但 是 在 样本 可 以 分 组 情况 下 ,各 
分 组 的 中 数 与 全 组 的 中 数 间 不 一 定 有 什么 关系 。 为 了 降低 极端 数据 对 平均 值 的 影响 ,可 
以 计算 5% 剪 裁 平均 值 (5% trimmed mean) , 它 是 排除 样本 中 偏离 平均 值 最 远 的 5% 数 据 后 
重新 计算 的 平均 值 。 剪 裁 的 标准 , 即 被 排除 的 极端 数据 的 百分数 是 可 以 变动 的 。 

一 个 需要 注意 的 问题 是 :如 果 一 组 数据 的 分 布 呈 双 峰 分 布 ,那么 该 数据 组 的 集中 量 
数 , 无 论 是 平均 什 或 是 中 数 ,都 是 没有 意义 的 。 例 如 一 个 样本 中 包括 长 剑 和 短 佩 全 两 种 
不 同类 型 的 剑 , 计 算 样本 中 剑 的 平均 长 度 是 没有 意义 的 。 又 例如 托儿所 里 有 身高 1.6 米 
左右 的 老师 阿姨 ,也 有 身高 不 足 1 米 的 儿童 , 求 某 托儿所 全 体 人 员 的 平均 身高 或 中 数 是 
毫 无 意义 的 。 应 分 别 考 虑 老师 阿姨 的 平均 身高 和 儿童 的 平均 身高 。 因 此 在 计算 一 组 数 
据 的 平均 值 时 ,应 先 检 查 一 下 数据 的 分 布 ,观察 是 否 为 单 峰 分 布 ,也 就 是 说 要 确认 我 们 所 
研究 的 样本 中 的 实体 应 该 属于 同一 类 型 的 ,否则 求 样本 的 集中 量 数 是 没有 意义 的 。 
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一 组 数据 的 分 布 特征 仅 用 平均 值 或 中 数 等 集中 量 数 来 表征 是 不 完善 的 ,还 必须 注意 
组 内 各 数据 之 间 的 离散 程度 。 例 如 有 两 个 数组 ,分 别 是 :11, 1.5, 1.5, 2, 2.5, 2.5, 3} 
和 11.8, 1.8, 1.9, 2, 2.1, 2.2, 2.2} ,它们 的 平均 值 是 相等 的 ,都 等 于 2, 它 们 的 中 数 也 
都 等 于 2。 但 可 以 看 出 ,这 两 个 数据 组 的 数据 分 布 的 高 散 程 度 是 不 一 样 的 , 相 比 之 下 第 二 
个 数组 中 的 数据 较为 集中 ,都 离 中 心 “2" 不 远 。 

3.2 节 讨 论 的 集中 量 数 反映 的 是 一 组 数据 的 代表 值 。 如 果 一 组 数据 是 记录 某 类 陶器 
的 线性 尺度 ,其 集中 量 数 应 是 设计 的 尺寸 ,那么 数据 的 离散 程度 反映 陶器 加 工 的 工艺 水 
平 ,陶器 的 实际 制作 在 多 大 程度 上 符合 原 设计 的 指标 。 专 业 加 工 的 陶器 其 实际 尺寸 的 离 
散 性 小 ,而 家 庭 作 坊 加 工 的 产品 就 不 那么 规范 ,产品 的 尺寸 离 设 计 值 会 有 较 大 涨 落 。 因 
此 需要 定义 表征 样本 的 数据 间 离 散 程度 的 量 , 称 为 差异 量 数 , 它 也 是 一 个 重要 的 统计 量 。 
常用 的 描述 数据 间 离 散 程度 的 统计 量 是 标准 差 和 四 分 位 差 ,但 标准 差 必 须 与 平均 值 一 起 
使 用 ,而 四 分 位 差 与 中 数组 成 一 对 指标 来 描述 数据 组 的 集中 量 数 和 差异 量 数 。 
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3.3.1 样本 方差 和 标准 差 的 定义 和 计算 


对 一 组 数据 (1, Xoven Xone Xa) 计算 出 平均 值 ХЕ, 可 以 算出 数据 组 中 每 个 
成 员 与 平均 值 的 差 : 
х= Х- Х (3-3) 
х, 称 为 离 差 。 离 差 的 值 可 以 为 正 , 也 可 以 为 负 。 根 据 对 平均 值 的 定义 ,样本 的 离 差 和 Хе 总 
是 等 于 零 的 。 在 统计 学 中 是 用 方差 5? 和 标准 差 5 来 表示 数据 问 的 离散 程度 。8 与 5 是 通 
过 这 些 离 差 x; 计算 得 出 的 统计 量 。 计 算 公式 如 下 : 


S = Do - Х)?/п = ууа (3-4) 


= | Da - X)?/n (3-5) 


一 组 数据 的 方差 是 其 每 个 成 员 与 平均 值 之 差 的 平方 和 ( 即 离 差 平 方 和 ) 再 被 数据 的 数目 
除 , 即 是 平均 离 差 平方 和 。 而 标准 差 是 方差 的 平方 根 值 。 方 差 55 也 可 以 用 下 面 的 公式 
(3-6) 来 计算 ,在 计算 机 没有 普及 的 年 代 , 这 是 一 个 比较 简易 地 计算 方差 值 的 公式 。 
S = х (х) (3-6) 
由 公式 (3-6) 可 见 ,数组 的 方差 等 于 该 数组 各 元 素平 方 的 平均 值 减 去 数组 平均 值 的 平 
方 。 公 式 (3-6) 证 明 如 下 : 


sa iya - X} = 1501-24 + (Х)9 


HS я-ахуж + Xa) 


= X -2XX + (X =- X - (XP 
根据 上 面 两 个 公式 可 以 计算 出 Dorset 地 区 巨石 文化 柱 洞 直径 的 方差 为 


35 35 
8° = 2105, - 43.8)2/35 = 12/35 = 79.2 


单位 是 сш ,而 标准 差 是 V79 3- 8.90, 单 位 用 cm 表示 。 本 节 {1, 1.5, 1.5, 2, 2.5, 2.5, 
3} 和 {1.8, 1.8, 1.9, 2, 2.1, 2.2, 2.2| 两 组 数据 的 标准 差分 别 为 0.65 和 0.16。 第 一 组 
数据 的 数据 取 值 分 散 , 因 此 标准 差 比 第 二 组 数据 大 ,显示 了 标准 差 反 映 了 数据 的 离散 程 
度 。 在 下 面 章节 中 将 介绍 ,很 多 情况 下 数据 的 分 布 接近 所 请 的 “ 正 态 分 布 ”, 这 时 大 约 有 


68.3 % 的 数据 会 处 于 以 平均 值 为 中 心 , 二 倍 标准 差 为 宽度 的 区 间 [X + 5] 中 。 
3.3.2 总 体 标准 差 和 样本 标准 差 


在 统计 学 中 总 体 和 样本 是 一 对 十 分 重要 的 概念 ,这 在 以 后 的 章节 中 会 详细 讨论 。 这 
里 先 指出 ,公式 (3-5) 和 (3-6) 是 计算 总 体 标准 差 的 公式 ,计算 样本 标准 差 的 公式 应 该 是 : 


= /Dk а) (3-7) 
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样本 的 标准 差 我 们 用 小 写 的 表示 ,计算 公式 的 分 母 上 是 用 (nn - 1) 取代 了 公式 (3-4) 和 
(3-5) 的 分 母 上 的 по 利用 公式 (3-7) 计 算 Dorset 柱 洞 直径 样本 的 标准 差 * =9.03cm, 大 于 
S =8.90cm。s 比 $ 略 大 ,但 当 样本 容量 n 很 大 时 ,这 两 个 量 的 数值 是 十 分 接近 的 ,其 数值 
上 的 差别 可 以 忽略 不 计 了 。 

还 有 一 个 反映 一 组 观测 值 离散 程度 的 量 称 为 相对 标准 差 或 变异 系数 n。 变 异 系数 定 
义 为 : 

7 = s/X у = 5/Х (3-8) 

变异 系数 用 百分数 表示 Doret 柱 洞 直 径 数 据 组 的 变 蜡 系数 为 9.03 + 43.8 =20.6%. 


3.3.3 四 分 位 数 和 四 分 位 差 


3.3.2 节 定 义 的 标准 差 是 与 平均 值 搭配 使 用 的 ,如 果 用 中 数 当 作 数 据 组 的 代表 值 , 则 
反映 离散 程度 的 差异 量 数 是 四 分 位 差 。 为 此 先 定义 四 分 位 数 , 四 分 位 数 是 按 大 小 排列 的 
数组 中 处 于 四 分 之 一 和 四 分 之 三 位 置 上 的 两 个 数据 ,分 别称 为 上 、 下 四 分 位 数 , 用 0» 和 
0» 表示 。( 0» - 0») 是 两 个 四 分 位 数 的 差 ,又 称 四 分 位 差 ,数组 中 有 50% 的 数据 落 在 这 
个 区 间 中 。 

我 们 仍 以 Dorset 柱 洞 直径 样本 为 例 来 说 明 四 分 位 数 和 四 分 位 差 。 重 新 抄录 Dorset 的 
数据 如 下 : 

25, 27, 28, 30, 34, 35, 38, 38, 38, 39, 40, 40, 40, 42, 43, 43, 43, 44, 
45, 47, 47, 47, 48, 48, 48, 48, 48, 49, 50, 50, 53, 57, 57, 58, 66 
可 见 Dorset 柱 洞 直径 样本 的 02s 和 0, 为 第 9 位 数据 “38” 和 第 27 位 数据 “48”, 四 分 位 差 为 
48 - 38 = 10。 另 外 Qs 就 是 中 数 , 而 Qo Оо 是 数组 的 最 小 和 最 大 两 个 极 值 。 一 般 情况 
下 ,如 果 样 本 的 容量 为 mn, 那么 Qu 的 位 置 为 (n + 1)/4, 中 值 О» 的 位 置 为 (m + 1)/2,0% 
的 位 置 为 3(n + 1)/4。 


3.3.4 反映 数据 分 布 的 箱 点 图 


在 3.1 节 中 曾 利用 直方 图 和 茎 叶 图 来 显示 Doret 柱 洞 直径 数据 的 分 布 , 另 一 种 显示 
数据 分 布 的 常用 方法 是 箱 点 图 (Box-and-dot plot) ,也 称 箱 图 或 Box-Whisker 图 。 图 3-4 是 
Dorset 石柱 直径 分 布 的 箱 点 图 表示 。 

箱 点 图 是 以 两 个 四 分 位 数 (38 和 48) 为 界 做 一 个 箱 体 , 箱 体 的 高 度 就 是 四 分 位 差 (48 
-38=10),50% 的 数据 落 在 箱 体 的 区 间 中 。 在 代表 中 数 数值 的 位 置 (44) 处 也 画 一 水 平 线 
段 ,该 线段 接近 于 箱 体 中 央 ,但 不 一 定 处 于 箱 体 的 正中 央 。 下 一 步 是 确定 邻近 区 域 和 特 
殊 歧 离 点 。 作 为 一 种 约定 俗 成 的 规则 , 离 箱 体 的 上 下 边缘 以 箱 体 高 度 的 1.5 倍 为 距离 作 
为 标准 。 箱 体 边缘 至 这 两 个 标准 值 之 间 的 区 间 称 为 临近 区 域 , 取 值 超过 这 两 个 标准 的 实 
体 被 认为 是 明显 偏离 样本 中 心 的 特殊 歧 离 实体 。 在 Розе 石柱 的 例子 中 ,这 两 个 标准 分 
别 为 48+1.5x10=63cm 和 38-1.5x10=2.3cm。 在 35 个 柱 洞 直径 值 中 其 直径 为 66cm 
的 柱 洞 属于 特殊 实体 ,因为 66 > 63。 除 去 这 个 特殊 实体 外 ,其 他 实体 或 位 于 箱 体 中 ,或 位 
于 邻近 区 域 。 箱 体 图 还 规定 需要 分 别 标 出 邻近 区 域 中 取 值 最 大 和 最 小 的 实体 的 位 置 。 
标识 的 方法 可 以 在 这 两 个 实体 的 位 置 处 划一 水 平 线 ,对 于 所 讨论 的 样本 这 两 个 线段 的 位 


第 三 章 考古 资料 的 描述 性 统计 29 


70 


20 т 


图 3-4 Dorse 石柱 直径 分 布 的 箱 点 图 表示 


置 应 该 在 58cm( 数 组 中 第 二 大 的 数 ) 和 25cm 处 (数组 中 最 小 的 数 )。 数 据 组 中 除 特殊 歧 离 
点 外 ,其 他 的 数据 点 均 落 在 58ст 和 25ст 这 两 条 线段 之 间 。 与 3.1 节 的 直方 图 和 茎 叶 图 
相 比 , 箱 点 图 明确 显示 了 数据 中 心 值 的 位 置 , 中 间 50% 数 据 的 位 置 , 全 部 非特 殊 数 据 的 分 
布 范 围 ,并 给 出 了 判断 特殊 偏离 点 的 一 种 标准 。 因 此 箱 体 图 在 说 明 人 性 数据 分 析 的 方法 中 
很 被 推崇 。 与 箱 点 图 相似 的 还 有 一 种 称 之 为 子弹 形 图 的 表示 方法 ,子弹 形 图 能 直观 地 应 
用 于 样本 间 平 均值 的 比较 , 它 是 基于 对 平均 值 估计 区 间 团 信和 度 的 概念 。 本 书 在 第 八 章 的 
8.4 节 将 予以 介绍 。 


3.3.5 标准 差 和 四 分 位 差 的 比较 


方差 和 标准 差 有 严格 的 数学 定义 ,是 概率 统计 学 的 基础 概念 ,在 本 书后 面 要 讨论 的 
数值 变量 的 总 体 参 数 估计 ,平均 值 的 假设 检验 ,相关 和 回归 乃至 本 书 下 篇 介绍 的 各 种 多 
元 统计 方法 都 涉及 这 两 个 概念 。 但 标准 差 的 缺点 和 平均 值 相 似 , 受 偏离 大 的 极 值 的 影响 
大 。 相 对 而 言 ,四 分 位 差 比 较 稳 定 , 不 受 或 少 受 偏离 大 的 极 值 的 影响 。 根 据 四 分 位 差 建 
立 的 箱 点 图 能 直观 地 显示 数据 点 的 分 布 范 围 和 特殊 点 。 此 外 四 分 位 差 也 可 应 用 于 有 序 
变量 的 情况 。 

20 世纪 70 ERE W. Tukey 提倡 一 种 称 为 说 明 性 数据 分 析 的 方法 (Exploratory Data 
Analysis ,简称 EDA)。 提 倡 使 用 荃 叶 图 、 箱 点 图 .中 位 数 和 四 分 位 差 等 方法 和 概念 来 分 析 
数据 。EDA 方法 的 优点 是 减少 了 复杂 的 数学 计算 ,分 析 结 果 直 观 ,容易 理解 。 随 着 一 些 
统计 软件 包 逐 步 将 EDA 的 各 种 方法 的 纳入 ,EDA 方法 的 使 用 在 各 领域 ,包括 考古 资料 的 
分 析 , 也 渐 趋 普及 。 例 如 匹兹堡 大 学 R. Drennan (周南 ) 编 写 的 《Statistics for Archaeologists》 
教科 书 中 介绍 ЕРА 方法 的 篇 幅 占 了 相当 的 比例 。 


3.4 EXCEL 软件 应 用 于 数据 组 的 描述 性 统计 


本 章 所 讨论 的 平均 值 、 标 准 差 、 中 数 和 四 分 位 数 等 在 Excel 软件 中 均 可 用 相应 的 函数 
计算 。 这 些 函 数 依次 是 average (数组 ) stdevp (数组 ) 或 stdev (数组 )、median (数组) 和 
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quantile (数组 ,0 - 4)。 这 里 stdevp 和 stdev 分 别 计算 总 体 标准 差 和 样本 标准 差 , 视 情况 选 
用 。 计 算 四 分 位 数 的 quantile (数组 ,0 - 4) 时 , 除 需 输入 数组 外 ,还 要 对 后 面 的 开关 赋值 ， 
0 到 4 分 别 计算 Qo E Оо, 即 从 数组 的 最 小 值 、 上 四 分 位 数 、 中 数 、 下 四 分 位 数 到 最 大 值 。 
使 用 SPSS 软件 也 可 以 方便 地 计算 这 些 统计 量 ,第 十 三 章 专门 对 此 作 介绍 。 


第 四 章 ”考古 统计 学 的 基础 知识 准备 
一 一 概率 基础 知识 和 两 个 重要 的 理论 分 布 


4.1 概率 基础 知识 复习 


考古 学 以 古代 人 类 活动 所 留 下 的 遗迹 遗物 作为 研究 对 象 。 但 是 遗迹 遗物 能 否 被 保 
存 下 来 ,又 能 否 被 考古 学 家 所 发 现 和 发 据 有 很 大 的 随机 性 。 概 率 论 作为 数学 的 一 个 分 
支 ,专门 处 理 随机 现象 。 概 率 的 研究 最 早起 源 于 研究 赌博 ,因为 投 所 角子 和 玩 扑 克 牌 充 
满 了 随机 现象 。 据 传 罗马 皇帝 克 迪 斯 一 世 ( 公 元 前 10 一 54) 曾 撰写 了 一 本 名 为 “ 赌 赢 秘 
计 " 的 书 , 很 可 惜 失传 了 。 文 艺 复 兴 时 期 有 一 位 梅 雷 改 士 请 他 的 朋友 ,著名 的 法 国 数学 
家 、 物 理学 家 布 莱 茨 . 珀 斯 卡 (1623 一 1666) 解 一 道 仍 子 赌 博 的 难题 。 "1 ARTAR 4 KE 
少 一 次 是 6 点 ,和 2 个 显 子 抛掷 24 次 至 少 一 次 是 双 6 点 ; 哪 种 机 会 更 多 "? 为 了 解决 这 个 
问题 ,帕斯卡 与 费 马 进行 了 讨论 ,后 来 全 人 共 间 奠定 了 概率 论 的 基础 。 有 了 概率 论 的 知 
识 , 梅 雷 狠 士 提出 的 问题 是 不 难 回答 的 ,本 节 后 面 将 给 出 答案 。 为 了 便于 读者 的 理解 ,本 
节 将 用 抛掷 规 子 和 扑克 牌 的 例子 来 介绍 或 者 复习 有 关 概 率 论 的 一 些 基 本 概念 。 


4.1.1 概率 的 定义 


什么 是 概率 ,概率 与 第 三 章 中 介绍 的 频率 的 概念 是 紧密 相关 的 。 第 三 章 的 表 3-1% 
计 乐 都 柳 湾 墓地 92 具 成 年 女性 人 骨 中 有 18 名 是 青年 女性 的 人 骨 , 从 而 计算 出 青年 女性 
人 上 骨 出 现 的 频率 为 18 :92 = 19.2%。 柳 湾 幕 地 发 掘 出 的 成 年 女性 人 骨 的 数量 是 有 限 的 ， 
所 定 的 频率 值 19.2% 并 不 能 精确 地 代表 墓地 所 属 氏 族 青年 女性 的 死亡 频率 ,而 只 是 一 个 
近似 值 。 在 柳 湾 墓地 随意 找 一 个 女性 人 上 骨 , 并 不 能 完全 准确 地 预测 她 属 哪个 年 龄 段 ,而 
只 能 给 出 她 属于 哪个 年 龄 段 的 大 致 可 能 性 。 我 们 再 举 一 个 投掷 奶子 的 例子 。 投 掷 6 次， 
出 现 “4 点 "的 次 数 不 一 定 是 1 次 ,可 能 一 次 也 不 出 现 , 也 可 能 出 现 2 次 ,甚至 3 次 。 就 是 
说 出 现 “4 点 ”的 频率 不 一 定 是 1/6。 而 且 即 使 最 初 的 6 次 投掷 “4" 出 现 1 次 ,计算 得 到 频 
率 值 是 1/6, 但 再 继续 投掷 下 去 ,出现 “4? 的 频率 还 是 会 偏离 1/6 的 。 但 是 如 果 增 加 投掷 
次 数 ,譬如 投掷 60 次 ,甚至 600 次 ,出 现 “4 点 "的 频率 会 愈 来 愈 接近 1/6, 偏离 愈 来 您 小 。 
我 们 可 以 把 上 面 的 例子 归纳 如 下 : 事件 4 在 每 次 试验 中 是 否 出 现 有 一 定 的 偶然 性 的 ,一 
定 的 条 件 下 进行 了 nn 次 试验 ,其 中 事件 4 出 现 了 m 次 ,那么 事件 4 出 现 的 频率 为 f| А} = 
m/n。 在 相同 的 条 件 下 再 进行 取 次 试验 ,事件 4 出 现 的 次 数 就 不 一 定 还 是 m 次 ,但 也 不 
会 偏离 т 太 远 。 试 验 的 次 数 n 愈 多 ,频率 m/n 的 数值 愈 稳定 。 这 种 稳定 性 ,或 规律 性 称 作 
客观 的 统计 规律 性 。 当 试验 次 数 非 常 非常 多 时 ,事件 4 出 现 的 频率 /14} 趋向 一 个 确定 的 
数值 , 称 为 事件 4 在 每 次 试验 中 出 现 的 概率 РА}. Б/Е 
PIA} = аА] (4-1) 
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不 拘 于 数学 上 的 严格 性 ,上 面 我 们 用 频率 法 来 理解 和 计算 概率 ,把 某 感 兴趣 事件 4 出 现 
的 概率 理解 为 在 一 次 试验 中 该 事件 出 现 的 可 能 性 。 

我 们 也 可 以 通过 一 类 简单 又 常见 的 , 称 为 古典 概 型 的 随机 现象 来 理解 概率 。 古 典 概 
型 随机 现象 的 特点 是 :(1) 试 验 结果 的 个 数 是 有 限 的 (nm 个 ); (2) 各 种 试验 结果 出 现 的 可 
能 性 是 相等 的 。 例 如 一 付 扑克 牌 任 抽取 一 张 ,只 可 能 有 52 种 结果 ,而 每 一 张 牌 被 抽取 的 
可 能 性 是 相等 的 。 这 52 种 可 能 的 抽取 结果 称 为 52 个 互 不 相 容 的 基本 事件 。 由 于 只 可 能 
有 这 52 种 结果 ,它们 又 组 成 了 完备 的 基本 事件 组 ,写成 UV 10, U, e Unlo FKA 
” 验 中 每 个 基本 事件 出 现 的 概率 就 应 该 是 PIU} = 1/n 而 且 有 


D Piu =1 (4-2) 


公式 (4-2) 表 示 U = [U, Veee, U) 组 成 了 完备 的 互 斥 的 基本 事件 组 。 在 处 理 
古典 概 型 的 随机 现象 时 , 每 个 事件 4 ,都 可 以 看 成 由 若干 个 (例如 m 个 ) 基本 事件 组 成 的 。 
在 抽 扑 克 牌 的 试验 中 ,抽取 一 张 牌 是 红 桃 的 事件 是 由 抽取 红 桃 4 到 红 桃 玉 这 13 个 基本 事 
件 所 组 成 。 因 为 基本 事件 是 互 不 相 容 的 ,事件 4 的 概率 定义 为 

PIA} = т/п (4-3) 
抽取 一 张 牌 是 红 桃 的 概率 就 等 于 13/52 = 1/4, 


4.1.2 概率 运算 的 基本 法 则 和 应 用 实例 


为 了 计算 一 些 更 复杂 事件 的 概率 ,下 面 讨论 概率 运算 的 几 个 法 则 。 

1. 加 法 法 则 。 现 有 事件 4 和 如 ,新 事件 C 由 “4 事件 发 生 或 B 事件 发 生 ( 当 然 也 包括 
А,В 同时 发 生 ) 组 成 ,我 们 称 C EAB 事件 的 和 , 记 作 С = 4 U B。 举例 来 说 抽 一 张 扑 克 
牌 或 者 是 红 桃 或 者 是 “kK” 都 可 以 接受 。 事 件 和 C 的 概率 是 

PIAUB} = Р\А| + PÍB} - РІА П В} (4-4) 
Җир AN ВА 与 B 同时 发 生 的 事件 , 称 为 АВ 两 事件 的 积 ,而 PIAN В| А Був Е 
时 发 生 的 概率 ,因为 在 P14} 和 Pi{B} 中 都 包含 了 4 与 8 同时 发 生 的 概率 ,在 计算 PiAU 
B) 时 不 应 重复 计算 ,因此 在 公式 (4-4) 中 要 扣除 一 项 P14 П В). 利用 加 法 法 则 可 以 计算 
出 , 抽 一 张 牌 或 者 是 红 桃 或 者 是 “K” 的 概率 应 该 等 于 : 

РІСІ = (13/52 + 4/52 - 13/52 x 4/52) 
加 法 法 则 的 一 种 特殊 情况 是 , 如 果 4 与 B 是 互 不 相 容 的 事件 , 即 它们 不 可 能 同时 发 生 ,这 
时 PIAN В} = 0, 公式 (4-4) 改 写成 
PIAU B} = PIA} + PIB} (4-5) 

还 是 以 抽取 扑克 牌 为 例子 , 抽 红 桃 和 抽 方 片 是 互 不 相 容 的 事件 , 抽 一 张 牌 是 红色 的 概率 
就 是 抽 红 桃 和 抽 方 片 两 个 互 不 相 容 的 事件 的 概率 之 和 ,为 13/52 + 13/52 = 0.5。 

2. 乘法 法 则 。 现 有 事件 4 和 B, 新 事件 C 是 “4 事件 和 8 事件 同时 发 生 ”, 称 为 AB 的 
事件 积 ,写作 C = 4 门 B。 例 如 要 求 从 一 副 扑 克 牌 中 先 抽 一 张 是 红 桃 (事件 4) , 放 在 一 边 ， 
再 抽 第 二 张 还 是 红 桃 (事件 B)。 事件 积 的 概率 为 

РАП B} = Р\А}Р}В | А} (4-6) 
式 中 РІВ | 41| 称 为 事件 4 已 发 生 的 情况 下 发 生 事件 8 的 条 件 概率 ,这 样 连 抽 两 张 红 桃 的 
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概率 为 (13/52 х 12/S1)。 因 为 一 副 牌 中 已 抽 走 一 张 红 桃 , 只 剩 下 51 张 牌 ,其 中 仅 有 12 张 红 
桃 ,因此 抽 第 二 张 还 是 红 桃 的 条 件 概率 为 12/51。 | 
有 一 种 特殊 情况 是 事件 4 和 B 是 相互 独立 的 , 即 事 件 B 的 发 生 与 4 事件 是 否 已 先 发 
生 无 关 , 这 时 条 件 概率 P18 | A = PIB), 事件 积 的 概率 的 计算 公式 成 为 
PIA N В| -РІЛІРІВІ| (4-7) 
还 是 以 连 抽 两 张 扑 克 牌 为 例 , 但 抽取 的 条 件 改 为 ,抽取 第 一 张 后 放 回 去 ,再 抽 第 二 
张 ,这 时 抽取 第 二 张 的 概率 与 第 一 次 的 抽取 结果 无 关 , 这 种 情况 下 连 抽 两 张 都 是 红 桃 的 
概率 为 (13/52 x 13/52)。 
3. 减法 法 则 。 事件 4 可 以 发 生 , 也 可 以 不 发 生 ,我 们 把 不 发 生 事件 4 称 之 事件 4 ЗИ 
事件 ,或 非 4 事件, 记 作 4。4 与 4 互 不 相 容 , 且 组 成 完备 的 事件 组 ,因此 有 : 
PIA} + РІА} =1 或 pl4 =1-Р|А} (4-8) 
4. 全 概率 公式 。 有 时 直接 计算 某 个 复杂 事件 B 发 生 的 概率 不 太 方 便 ,可 以 利用 全 概 
率 公 式 来 求解 ,假设 A А, з А, 组 成 完备 的 互 不 相 容 事件 组 , 即 有 
Р\А, П А} = 0 DPA = 1 
因此 如 果 发 生 了 8 事件 , 它 必定 与 А, 中 的 某 个 事件 同时 发 生 ,而 且 只 是 与 该 事件 同时 发 
ЖЫШ B N А,, ВП А," ‚В N А, 也 同样 组 成 完备 的 互 不 相 容 事件 组 ,因此 利用 不 相 
容 事件 的 概率 加 法 法 则 ,可 以 写 出 
PIB} = DPIBN АН 


再 利用 计算 事件 积 概率 的 公式 (4-6) ,就 可 推导 得 到 全 概率 公式 
PIB} = DJP{ANPIB | A;} (4-9) 
例题 ”一 张 张 地 抽 扑 克 牌 ,抽出 后 不 放 回 , 求 抽 第 三 张 是 红 桃 的 概率 。 现 将 求 抽 第 
三 张 是 红 桃 的 事件 称 为 事件 B。 因 为 抽出 的 牌 不 放 回 , 抽 第 三 张 牌 的 概率 依赖 于 前 面 两 
次 抽取 的 结果 。 前 两 次 抽取 可 能 发 生 4 种 情况 : 
4; 第 一 张 红 桃 ,第 二 张 也 是 红 桃 
А ”第 一 张 红 桃 ,第 二 张 不 是 红 桃 
A ”第 一 张 不 是 红 桃 ,第 二 张 是 红 桃 
44 ”第 一 张 不 是 红 桃 ,第 二 张 也 不 是 红 桃 
这 四 个 事件 组 成 了 完备 的 不 相 容 事件 组 。 用 全 概率 公式 可 计算 抽 第 三 张 是 红 桃 的 概率 。 


出 现 4; 的 概率 А; 出 现 后 出 现 B8 的 条 件 概 率 
PÍA} = 13/52 x 12/51 PÍB | Ai} = 11/50 
Р\А,| = 13/52 х 39/51 РІВ| A,} = 12/50 
P| A3} = 39/52 х 13/51 Р\В | А,| = 12/50 
РТА, = 39/52 х 38/51 PÍB | A,} = 13/50 


这 样 在 前 两 张 扑 克 牌 抽出 后 不 放 回 的 条 件 下 , 抽 第 三 张 是 红 桃 的 概率 РІВ} 为 
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PÍB} = >) PIAI PIB | АЙ 


1 
= 52557550011 х 12x13 +2 х 12 х 13 х 39 + 39 x38 х 13) = 0.25 


这 个 结果 与 前 两 张 扑克 牌 抽 出 后 放 回 , 抽 第 三 张 是 红 桃 的 概率 是 一 致 的 。 

5. Ж ҖЕ ДК 。 全 概率 公式 是 已 知 诸 事件 А, 组 成 完备 的 事件 组 ,而 根据 B 事件 发 
生 的 诸 原因 4; ,来 计算 B 事件 发 生 的 概率 ,是 从 原因 来 推算 结果 。 反 过 来 ,如 果 8B 事件 已 
经 发 生 ,希望 来 探求 组 成 完备 事件 组 的 诸 原因 А, 各 导致 B 事件 发 生 的 概率 多 大 ,是 由 果 
探 因 。 这 类 概率 的 计算 公式 称 为 逆 概 率 计算 公式 ,又 称 为 贝 叶 斯 公式 。 

假设 41，42 ，…… ‚ А„ 组 成 完备 的 互 不 相 容 事件 组 。 现 在 事件 B 已 经 发 生 , 要 计算 它 
是 由 А, 导致 的 概率 , 即 计算 条 件 概 率 P| 4; | B1。 利 用 事件 积 概率 的 公式 

РІВ N А;} = PIAIPIB|A} = Р\В}Р}А, | В) 


整理 得 到 
РІЗ = РЕВ! А! 
再 将 全 概率 公式 (4-9) 取 代 上 式 分 母 中 的 P18| ,得 逆 概 率 公式 
P|A;} PIB | A;} 
РАТЕ = STPATPIB I Al (4-10) 


7 SPIA] PIB | А 


下 面 通过 一 个 具体 的 例子 来 说 明 逆 概率 公式 的 应 用 。 在 某 地 区 流行 一 种 传染 病 ,已 
知 有 千 分 之 一 的 人 得 病 。 有 一 种 检验 方法 , 它 对 病人 的 检 出 率 为 99% ,但 对 健康 人 检验 
的 假 阳 性 率 为 2% 。 现 在 有 一 位 张 先生 检查 为 阳性 ,我们 希望 知道 他 已 经 传染 得 病 的 概 


率 是 多 少 。 得 病 (А) 和 健康 (4) 两 种 状态 构成 了 完备 的 互 不 相 容 事件 组 ,而 且 已 知 得 病 
和 健康 的 概率 分 别 为 P14} = 0.001 和 РІА} = 0.999。 规 定 检验 结果 为 阳性 为 事件 В, ДІ 


PÍB | A} =0.99 和 PfB14| =0.02。 检 验 阳 性 且 已 经 传染 得 病 的 概率 是 P14 | В|. й 
据 北 概率 公式 
PÍA | В| = (0.001 х 0.99)/(0.001 x 0.99 + 0.999 x 0.02) = 0.0472 

就 是 说 张 先生 已 传染 得 病 的 概率 小 于 5% ,需要 进一步 观察 或 隔离 ,但 也 不 必 过 于 紧张 。 
顺便 我 们 还 可 以 计算 这 种 检验 方法 的 有 效 性 。 假 设 对 10000 人 作 了 检验 ,那么 平均 而 言 
有 10000 х (0.001 x 0.99 + 0.999 x 0.02) =210( 人 ) 检 验 阳 性 。 其 中 200 为 假 阳性 。 另 一 
方面 真正 得 病 而 未 查 出 的 人 数 平均 为 10000 х 0.001 х (1 -0.99) = 0.1( 人 )。 当 然 0.1 
(人 ) 是 没有 意义 的 ,人 数 必 须 整 正 数 ,但 说 明 10000 人 中 未 检 出 的 病人 是 极 少 的 。 使 用 这 
种 检验 方法 后 ,10000 人 中 仅 需 对 210 人 做 监控 就 可 以 了 ,而且 真正 病人 未 被 检查 出 的 风 
险 极 小 。 

了 解 了 概率 运算 的 基本 法 则 ,可 以 来 回答 梅 雷 狠 士 向 帕斯卡 请 教 的 问题 。 第 一 个 问 
题 是 投掷 4 次 明 子 至 少 出 现 1 次 6 点 的 概率 , НЕ 表示 这 个 事件 ,直接 计算 这 事件 的 概 


Ж PIE 较 复杂 ,我 们 计算 已 的 逆 事 件 , 即 投掷 4 次 一 次 也 没有 出 现 6 点 的 概率 PIEM 
次 投掷 不 是 6 点 的 概率 是 5/6 ,而 每 次 投掷 都 是 独立 事件 ,因此 用 乘法 法 则 求 投掷 4 次 1 次 


也 没有 出 现 6 点 的 概率 PIE) = (5/6) = 0.482。 根 据 减 法 法 则 PIE} = 1- PIE) = 
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1 - 0.482 = 0.518, АКВ НЯ ІКОНА Е 0.5185. БЕНЕН 7 
问题 是 24 УК НЕН 2 ART, 0 0 — КХХ 6 点 的 概率 是 多 少 。 用 了 表示 这 个 事件 。 


同样 先 计 算 其 逆 事 件 的 概率 , 即 24 次 投 据 角 子 未 出 现 一 次 双 6 点 的 概率 PIY 。 投 一 次 不 
是 双 6 的 概率 是 1 - (1/6)? = 35/3624 次 投掷 未 出 现 一 次 双 6 的 概率 PIY} = (35/36)® 


= 0.509。24 次 投掷 至 少 出 现 一 次 双 6 点 的 概率 PiY} =1- {У =1-0.509 = 0.491。 现 
在 可 以 告诉 梅 雷 琅 士 ,事件 五 出 现 的 概率 略 大 于 出 现 事件 了 的 概率 ,他 可 以 参考 上 面 计算 
的 概率 值 来 下 赌注 或 计算 有 关 的 赔偿 率 。 


4.2 排列 和 组 合 知识 复习 


在 计算 复杂 事件 的 概率 时 ,以 及 后 面 要 讨论 的 二 项 式 分 布 时 都 需要 一 些 关 于 排列 和 
组 合 的 知识 ,下面 作 简要 介绍 。 

(一 ) 排列 问题 。 

假设 有 nn 个 不 同 的 元 素 a1 ,as,…… ,a 组 成 一 个 集合 ,从 中 任意 取出 m 个 (m < п), 
并 加 以 排列 , 问 有 允 少 种 排列 方法 。 这 里 有 两 种 抽取 的 方法 。 第 一 种 是 抽取 出 的 元 素 要 放 
回 ,这 样 抽取 的 元 素 可 以 是 重复 的 ,抽取 т 个 并 排列 的 方法 的 数目 为 

Ёк=пхпееп = п" (4-11) 

第 二 种 方法 是 抽取 出 的 元 素 不 放 回 。 那 么 抽取 第 一 个 元 素 有 п 种 方法 , 取 第 二 个 有 

(n - 1) 种 方法 ,抽取 第 m 个 有 (n -m +1) 种 方法 ,这 种 情况 下 ,不 同 的 排列 方法 数目 为 


P? = nln -1)(n -2)…… (n-m+1) (4-12a) 
Жап-(п-1)п-2еее3,2.1й/МЕ n!, WAR(4-12a) 改写 为 
m n! 
РТ = 0 (4-12Ь) 
当 全 部 元 素 都 抽取 时 , 即 m = n 时 , 则 有 
Р” = п! (4-13) 


例题 4 名 围棋 运动 员 选 3 名 ,并 按 第 一 到 第 三 比赛 台 排 列 , 问 有 几 种 选择 方法 。 答 
ЖЕРІ = 41/(4-3)! = 24。 有 24 种 选择 方法 。 

(二 ) 组 合 问 题 。 

如 果 从 п 个 元 素 中 任意 取出 т 个 而 不 加 以 排列 , 间 有 几 种 取出 方法 , 称 为 组 合 数 , 记 
{Е Со, 显然 
ы. 
ml (п-т)!. т! 

例题 “在 一 批 墓葬 中 鉴别 出 4 种 类 型 的 器 物 , 以 A,B,C ЯП рр. WR 3 种 类 型 的 
器 物 形 成 一 种 组 合 , 求 理论 上 有 和 多少 种 可 能 的 组 合 。 这 里 п = 4, т = 3。 可 能 的 组 合 数 为 


4! 4х3х2х1 ) 
Сі = Зур = 15 (3251) = 4。 如 果 鉴 别 出 的 器 物 类 型 是 5 种 , 则 3 种 类 型 器 物 


(4-14) 
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52 5! | 5х4х3х2х1 


在 Excel кнын PERMUT бв, a) 和 COMBIN (п, m) 来 计算 Pa I Cro 对 
上 面 的 例题 可 分 别 键 入 “= PERMUT(4,3)” 和 “= COMBIN(4,3)” ,将 分 别 返 回 “24” 和 “4”。 
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第 三 章 曾 讨论 了 一 组 实体 依据 其 某 一 属性 的 频次 分 布 和 频率 分 布 ， 这 是 样本 的 经 验 
分 布 。 至 于 总 体 的 分 布 , 在 一 些 情况 下 可 以 依据 我 们 关于 总 体 的 知识 ,通过 逻辑 推理 来 
建立 ,这 是 关于 总 体 的 理论 分 布 。 理 论 分 布 可 以 用 一 定 的 数学 函数 来 表述 。 自 本 节 起 将 
依次 讨论 均匀 分 布 、 二 项 式 分 布 和 正 态 分 布 等 三 种 理论 分 布 。 

首先 讨论 均匀 分 布 。 我 们 还 是 从 抽 扑 克 牌 为 例 着 手 。 每 次 抽 一 张 ,记录 牌 的 点 数 让 
放 回 。 每 次 试验 的 所 得 到 的 “点 数 "是 一 个 随机 变量 ,变量 取 正 整数 ,并 且 其 取 值 范围 是 
从 1(A) 到 13(K) 变 化 。 根 据 我 们 对 扑克 牌 组 成 的 知识 ,可 知 该 随机 变量 取 13 个 可 能 值 
中 任何 一 个 值 的 概率 都 是 相等 的 ,都 等 于 4/52 = 0.077, 其 概率 分 布 是 一 个 均匀 分 布 ,如 
图 4-1 所 示 。 实 际 抽取 扑克 牌 所 得 的 频率 分 布 属于 经 验 分 布 , 由 于 随机 的 涨 落 , 抽 扑克 牌 
的 经 验 分 布 不 可 能 如 此 理想 地 均匀 ,但 当 抽取 次 数 不 断 增加 时 ,经 验 分 布 也 愈益 接近 理 
论 上 的 均匀 分 布 。 


0.107 - 


图 41 回放 抽取 单 张 扑 克 有 牌 出 现 的 点 数 的 
均匀 概率 分 布 图 - | 
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4.41 贝 努 里 试验 和 二 项 式 分 布 


假设 在 固定 条 件 下 重复 一 系列 独立 的 试验 ,而 每 次 试验 只 可 能 出 现 A 与 非 A(A) 两 
种 结果 ,这样 的 试验 称 为 贝 努 里 试验 。 所 谓 独立 的 试验 是 指 每 一 次 试验 结果 的 概率 与 先 
前 各 次 试验 的 结果 无 关 。 例 如 多 次 的 投掷 盘子 或 硬币 ,从 完整 的 扑克 牌 中 任意 抽取 一 张 
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牌 , 从 一 个 幕 地 中 每 次 新 鉴定 一 个 人 骨 的 性 别 等 都 属于 独立 的 试验 。 但 其 中 只 有 投掷 硬 
币 和 人 肯 性 别 鉴定 属 贝 努 里 试验 ,而 投 撕 角 子 和 抽取 扑克 有 牌 会 产生 多 种 结果 ,不 属于 贝 
努 里 试验 。 贝 努 里 试验 所 产生 的 随机 变量 只 可 能 有 两 个 取信 站 иб жәен 
变量 。 二 项 式 分 布 就 是 二 元 随机 变量 的 概率 分 布 。 
假设 每 次 贝 努 里 试验 出 现 A( 成 功 ) 与 非 A( 失 败 ) 的 概率 分 别 为 р Ma qo 每 次 试验 的 
结果 ,成 功 与 失败 必 居 其 一 ,因此 有 
р+ ч = 1 | | 2185 (4-15) 
进行 2 次 试验 可 以 出 现 3 种 结果 :(1)2 次 都 成 功 ， 其 概率 为 р?;(2) 一 次 成 功 一 次 失 
败 , 因 为 从 结果 看 不 必 区 分 成 功 与 失败 的 先后 ,这 样 一 次 成 功 一 次 失败 的 概率 是 2раз (3) 
连续 两 次 失败 ,其 概率 为 g?。 这 3 种 结果 之 中 必然 出 现 一 种 ,因此 有 O 
р? + 2рд + 9? =(р+4)%=1.. (4-16) 
进行 3 次 试验 可 以 出 现 4 种 结果 :(1)3 次 成 功 ,(2)2 次 成 功 1 次 失败 ,(3)1 次 成 功 2 
次 失败 和 (4)3 次 失败 。 下 面 公式 (4-17) 中 的 4 项 分 别 表示 这 站 Hahi, 以 及 
它们 的 梳 率 和 为 1。 


р? + Spd + 3pg’ + rf = (ptg =1 е та Ши 

如 果 进行 了 n 次 试验 ， 则 可 能 产生 п 本 1 жай. 且 有 | К: М É = Ві ) 
! È суч т (a-m). =, (р + КҮ А 1 | қ ри ® } , (418) 
ир Cr "6% т) ЖТ n кюн m 次 成 功 和 (n - т) ЖА: б" есы 


жетке 1 ы e е ү 
Cn ЭТЕ т\° 29 


МЕТ ER, ДЗ Н А ЕВИ ЕЛАН Т ЖИП РА НО СОУЛ д Пу ЛЕ 
开 , 因 此 称 为 二 人 试验 总 次 数 п 和 每 次 试验 成 功 的 概率 
Po: 图 4-2 是 n = 6,p = 0.5 的 二 项 式 分 布 图 2000-26 ра wag М 


0.4 
| 1 Co ош АЯ 


БЕ 


0.00 1.00 200 3.00 400 5.00 600 
成 功 次 数 - 


图 4.2 n=6,p =0.5 的 二 项 式 分 布 图 


已 知 对 于 贝 努 里 试验 ,nm ааа, +1 种 结果 。 令 随机 变量 Е 的 取 值 等 于 成 
功 的 次 数 т. RA ' 
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Pile = m} = Cp" (1 - р)" (m = 1,2,+°п) 
除了 利用 公式 (4-18) 计 算 贝 努 里 试验 中 随机 变量 $ 取 某 个 数值 的 概率 外 ,还 可 以 计 
算 随机 变 & 取 值 为 某 一 范围 的 概率 。 
(1) 几 次 试验 成 功 的 次 数 不 少 于 > RE rK) 的 概率 为 


Р\т<=т=п} = Sepa = p) ™ 
(2) 成 功 的 次 数 不 大 于 + 次 ( 含 :次 ) 的 概率 为 
РіО mar = У) Стр"(1 - р)" 
(3) 成 功 的 次 数 在 与 "次 之 间 (+ > s A ， 次 和 :次 ) 的 概率 为 


Р{з=т==г}| = > Стр" (1 一 р)" 

可 以 用 Excel 中 的 BINOMDIST 函数 计算 随机 变量 & 取 某 个 数值 的 概率 ,或 取 值 自 0 
到 т 的 累积 概率 或 积分 概率 。 该 函数 赋值 如 下 BINOMDIST( 成 功 次 数 m, 试验 次 数 п, ё 
次 试验 成 功 的 概率 р, 开关 值 )。 当 开关 值 赋值 “false” ,返回 £ = т 的 概率 ;赋值 “true” 
时 ,返回 & < т 的 累积 概率 。 例 如 输入 BINOMDIST(2,4,0.5,FALSE) ,是 计算 p = 0.5 条 
件 下 4 次 实验 成 功 2 次 的 概率 ,返回 0.375。 如 果 输 入 BINOMDIST(2,4,0.5,TRUE), 则 计 
算 p = 0.5 条 件 下 4 次 实验 成 功 次 数 不 大 于 2 的 概率 , 即 试验 4 次 ,成 功 2 次 1 次 和 0 次 
的 概率 之 和 ,返回 0.6875。 


4.4.2 二 项 式 分 布 的 性 质 


(1) 二 项 式 分 布 是 离散 型 数值 变量 的 分 布 , 当 试验 次 数 为 n 时 ， 变量 有 (n + 1) 个 取 
值 ,分 别 为 (0,1,2,……,n)。 
(2) n 次 试验 ,变量 取 值 为 т 的 概率 为 CrO - р)". 
(3) 总 的 概率 和 为 1， ш у) стр" 445” = 1。 
(4) 一 项 式 分 布 的 数学 期 望 值 Е(ё) = npo 
数学 期 望 值 的 定义 是 
Е(ё) = У тб} mg om) _ np (4-19) 


这 里 不 去 证 明 公 式 (4-19) 的 成 立 。 “数学 期 望 可 以 理解 为 总 体 的 平均 值 ， п 次 试验 平 
均 成 功 的 次 数 为 me 次 ,这 应 该 是 很 自然 ,可 以 理解 的 。 
(5) 二 项 式 分 布 的 方差 D(&) 定义 为 


D(é) = У - пр)? С"р"а("-") (4-20) 
根据 公式 (3-6) 可 以 计算 得 到 
D(E) = Е(&')- (Е(&))? = пра (4-21) 


(6) 当 p = q = 0.5 时 ,数学 期 望 等 于 0.5n, 而 且 分 布 是 对 称 的 , 即 成 功 mw 次 和 失败 
т 次 的 概率 相等 。 
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443 二 项 式 分 布 的 应 用 实例 


例题 一 ”出 10 道 是 非 题 测验 学 生 的 水 平 。 如 果 某 学 生 没 有 认真 学 习 , 随 意 “ 瞎 管 ”， 
问 他 答对 6 题 以 上 的 概率 多 大 。 测 试 数 n = 10, 因 为 是 随意 “ 瞳 答 ” ,是非 题 答对 和 答 错 


的 可 能 都 是 一 半 , 即 p = q = 0.5。 计 算 P16 < г< 10| = 2:6 Chp” ™ = 37.7% 。 这 


可 以 用 Excel 中 的 BINOMDIST 函数 计算 。 先 算 答对 0 到 5 题 的 累计 概率 Ріт < 5} -ВІ- 
NOMDIST(5 ,10,0.5,TRUE) ,返回 0.623。 因 此 答对 6 Жїнї 6 ДИД ЕО, ИШ “ЕЕ” ЖЕ 
的 概率 为 (1 ~ 0.623) =37.7% 。 如 果 出 20 EA, RAAR 12 题 以 上 及 格 的 概率 ,应 该 
是 [1 - BINOMDIST(11,20,0.5,TRUE)] = [1 - 0.748] =25.2%。 可 见 增加 是 非 题 的 数目 ， 
可 以 降低 考试 结果 的 随机 性 ,更 真实 地 反映 学 生 的 水 平 。 考 古 学 研究 中 鉴定 幕 地 成 年 人 
骨 的 性 别 ,判断 成 年 男女 性 比 是 否 正常 ,在 方法 上 与 这 类 是 非 题 考试 的 情况 十 分 类 似 的 ， 
为 了 提高 判别 性 比 情况 的 可 信和 度 , 鉴 定 的 人 上 骨 数 目 必须 足够 多 ,我 们 在 以 后 的 章节 中 将 
详细 讨论 。 

例题 二 ”前面 的 例题 中 , p = 9 = 0.5。 这 里 我 们 分 析 一 个 p 关 9 的 更 普遍 的 情况 还 
是 出 10 道 题 测验 ,但 是 为 选择 题 ,从 5 个 答案 中 选 一 个 正确 的 答案 。 这 样 “ 睹 答 ” 正确 的 概 
Жр-0.2, “ЕЖ” ERBE q = 0.8。 计 算 “ 瞎 答 ” 及 格 的 概率 P16 < т< 10| = 


10 


2 Chp "400-” = [1 – BINOMDIST(5,10,0.2, TRUE)] = [1 ~ 0.9936] =0.64%。 对 于 10 
道 从 5 个 答案 中 选 一 个 正确 答案 的 选择 题 ， 瞎 答 ”及格 的 概率 小 于 1% ,显然 比 10 道 是 
非 题 能 更 真实 地 反映 学 生 的 实际 水 平 。 


现在 计算 机 普及 了 ,Excel 等 软件 使 得 二 项 式 分 布 的 计算 变 得 方便 简单 。 而 在 计算 机 
普遍 应 用 前 , 当 n 和 m 数值 很 大 时 ,二 项 式 计算 十 分 繁 珊 复 杂 。 所 幸 当 n 和 m 数值 很 大 时 
(п > 30, ть 5), 二 项 式 分 布 趋 向 于 正 态 分 布 ,可 以 通过 正 态 分 布 来 处 理 , 从 而 显著 地 
简化 了 计算 过 程 ,详细 情况 将 在 第 八 章 中 介绍 。 


4.5 正 态 分 布 


上 节 讨 论 的 二 项 式 分 布 适用 于 离散 型 的 随机 变量 ,变量 取 值 局 限于 正 整 数 范围 。 秽 
多 的 随机 变量 是 可 以 取 值 小 数 和 分 数 的 ,例如 入 体 的 身高 ,器 物 的 尺寸 ,聚落 的 面积 , 青 
铜 器 和 陶器 中 化 学 元 素 的 含量 等 ,它们 称 为 连续 型 随机 变量 。 连 续 型 随机 变量 一 般 用 正 
态 分 布 来 处 理 。 正 态 分 布 又 名 高 斯 分 布 , 是 著名 的 德国 数学 家 高 斯 在 研究 误差 理论 时 首 
先 提出 的 。 正 态 分 布 函数 是 概率 统计 学 和 误差 理论 中 最 重要 的 分 布 函数 ,很 多 其 他 的 分 
布 函数 ,如 分布 函数 等 都 是 根据 正 态 分 布 函数 扩展 推导 出 来 的 。 因 此 正 态 分 布 无 愧 于 
被 称 为 分 布 之 母 。 此 外 在 现实 世界 中 很 多 变量 取 值 的 经 验 分 布 也 是 服从 、 或 者 接近 于 正 
态 分 布 的 。 例 如 某 个 种 族 成 年 男性 的 身高 , 某 地 区 某 时 段 生产 的 陶瓷 器 中 各 元 素 的 含 
量 , 本 书 前 面 章节 中 关于 Dorset 地 区 巨石 文化 石柱 柱 洞 的 直径 ( 见 图 3-2) 和 后 面 要 介绍 的 
山东 半岛 蛤 堆 顶 贝 丘 遗址 第 3 层 贝 壳 的 宽度 ( 见 图 4-4) 等 变量 的 分 布 都 十 分 接近 正 态 分 
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布 。 而 且 以 后 我 们 还 将 看 到 ,即使 某 变量 本 身 的 分 布 偏离 正 态 分 布 ,该 变量 平均 值 的 分 
布 也 必定 会 趋向 于 正 态 分 布 。 例 如 前 面 4.3.2 中 也 提 到 , 当 样本 容量 很 大 时 ,二 项 式 分 布 
趋向 于 正 态 分 布 。 BAT алынан Дн 概率 密度 函数 
和 定 积分 三 个 基本 概念 。 С 


4.51 关于 频率 密度 .频率 密度 函数 和 定 积分 的 基本 概念 


” 我 们 还 是 从 Dornet 35 个 石柱 洞 直径 的 例子 人 手 引 大 分 布 的 频 率 密 嵌 概念 。 柱 洞 直 
ЧЕН ЛУ ХШ :25, 27, 28, 30, 34, 35, 38, 38, 38, 39; 40,40; 40, 42, 43, 
43, 43; 44, 45, 47, 47, 47, 48, 48, 48, 48, 48, 49, 50, 50, 53, 57,57,58, 66 厘米 第 
三 章 的 图 3-24 ЖИЕ 3-2Ь 分 别 表 示 10 厘米 和 5 ЕЖКІНИЯ ЖИЕН, ТІЗЕ! 
ХАНА ЕЕ Е-Е, а 把 直径 范围 等 分 为 5 个 区 间 , 每 区 间 10 ЖЖ, 
区 间 宽 , 则 相应 每 区 间 的 频率 值 高 ,最 高 的 频率 值 为 51.4% ;图 b- 把 直径 范围 等 分 为 9 个 
区 间 КІН 5 厘米 ;区间 罕 ; 则 相应 每 区 间 的 频率 值 就 低 , 最 高 仅 为 28.6%。 如 果 将 每 
段 的 纵 坐 标 频 率 值 被 分 段 的 宽度 去 除 , 得 到 的 商 值 就 是 单位 区 间 宽 度 的 频率 值 , 这 个 “ 商 
值 ? 称 频率 密度 。 囊 4-1 显示 了 对 Doret 35 价 石 柱 柱 洞 直径 数据 的 整理 ,以 及 计算 频率 分 
布 和 频率 密度 分 布 的 过 程 和 结果 。 图 4-3а 和 4-3b 显 孙 了 这 些 柱 润 直径 数 据 以 10 ЖЖЖ 
5 厘米 间隔 的 频率 密度 分 布 。 对 比 这 两 张 图 和 表 4-1 的 左 大 面 都 可 以 见 到 ,对 应 于 相同 
直径 值 的 频率 密度 值 是 相当 接近 的 ， 例如 两 图 上 频率 密度 的 峰值 分 别 为 5.14 和 5.72 
(%/ст) 。 这 个 现象 反映 了 频率 密度 与 区 间 宽 度 基本 无 关 。 当然 在 这 两 张 图 上 和 表 4-1 
的 左右 面 , 对 应 于 相同 直径 值 的 频率 密度 值 之 间 述 是 有 一 些 差 别 的 ,特别 是 在 直径 值 揭 
高 低 两 端 。 这 是 因为 柱 洞 的 总 数 太 少 ( 才 35 个 )、 每 个 直径 区 闻 中 所 包含 的 柱 洞 数量 更 
少 , 柱 洞 数量 的 随机 涨 落 导 致 了 频率 密度 差别 的 存在 。 Ca 
案 。 以 免 每 个 区 间 中 的 柱 洞 数 目 太 少 。 | 
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图 4-3a Donet 地 区 和 石 文化 石柱 柱 洞 直径 测 。 ”图 43b“Dorset ШШЕЯХЕЯЕНИШЁ 
量 值 的 频 来 密度 分 布 直方 图 Ca) 以 | 测量 值 的 频率 密度 分 布 直方 图 (b) 


| 10em 为 间隔 | 区 5em 为 间隔 
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#41 Dorset 地 区 巨石 文化 柱 润 直 径 测量 值 按 频 次 .频率 和 频率 密度 的 分 布 表 
{以 10cm 和 5cm 分 段 ) 

直径 范围 | 频次 | 频率 % | 频率 密度 | 直径 范围 | 

f= 10/35 | f/A1 (от) | Al=5em т | f/Al (ст!) 
8.57 | 0.86 25—29 | 1.72 
30—34 | 1.14 
35—39 2.86 
40—44 4.56 
45—49 | 5.72 
50—54 | 1.72 

55—59 

60—64 | 

65—69 | 


当 所 研究 样本 中 实体 的 数目 很 多 时 ,可 以 把 属性 的 取 值 范围 分 成 很 多 组 ,每 组 的 区 
HRE ,但 每 个 区 间 中 仍 可 有 相当 数量 的 实体 。 这 种 情况 下 每 个 区 间 所 对 应 的 频率 密度 
也 就 趋向 稳定 。 袁 靖 (Yuan,2003) 在 山东 半岛 牟平 县 蛤 堆 顶 贝 丘 遗址 的 第 3 层 , 采 集 并 测 
Е T 2300 多 个 Venerupis variegata 种 贝壳 的 宽度 。 图 4-4a 是 约 2300 个 贝壳 个 体 按 其 宽度 
的 频率 密度 分 布 直方 图 (宽度 小 于 20 毫米 的 贝壳 数 均 合并 在 20 毫米 的 贝壳 中 ,因此 图 中 
20 毫米 处 显示 的 频率 密度 比 实际 情况 要 偏 高 )。 因 为 样本 容量 其 大 ,对 于 从 20 毫米 到 43 
毫米 的 贝壳 宽度 ,可 以 每 1 毫米 分 一 组 , 共 分 成 24 组 ,而 每 组 的 个 体 数 仍 有 几 十 到 接近 
200。 我 们 把 图 上 每 个 直方 形 上 端的 中 心 点 用 平滑 的 曲线 连 起 来 ,得 到 图 4-4b, 直 方 图 趋 
向 了 平滑 的 曲线 。 这 条 曲线 称 为 频率 密度 曲线 ,可 以 看 出 它 与 图 4-4a 中 拟 合 直方 图 的 正 
态 曲 线 相当 接近 。 虽 然 在 图 4-4a 中 ,每 组 的 个 体 数 和 相应 每 组 的 频率 密度 值 都 还 有 一 定 
的 涨 落 ,因而 曲线 4-4b 也 还 有 一 些小 的 起 伏 。 但 从 图 4-4b 的 频率 密度 分 布 曲线 可 清楚 
看 出 ,贝壳 宽度 的 中 心 值 在 29 毫米 左右 , 短 于 20 毫米 和 宽 于 42 жжыл а». Н 
20-42 毫米 已 包含 了 绝对 大 多 数 贝壳 的 尺寸 的 范围 ,图 4-4a 中 全 部 长 方形 面积 之 和 ,以 及 
图 4-4b 频率 密度 曲 线 下 面 的 面积 都 应 该 等 于 1( 或 十 分 接近 于 1) 的 。 利 用 这 条 频率 密度 
曲线 ,对 于 蛤 堆 顶 遗址 第 3 层 的 贝壳 可 以 方便 地 计算 ,宽度 处 于 某 两 个 具体 数值 gs 和 之 
间 的 贝壳 数 占 有 多 大 比例 。 为 此 从 横 轴 的 a 和 上 b 两 点 作 横 轴 的 垂 线 ,它们 和 频率 密度 曲 
线 相 交 于 a 和 jb' 两 点 ,图形 aa'bb' 所 组 成 的 面积 就 给 出 这 个 比例 值 。 

当 实 体 的 数量 不 断 增加 时 ,实体 的 分 组 可 以 更 细 , 而且 根 据 本 章 第 一 节 关 于 概率 的 
定义 (公式 4-1) ,频率 趋向 于 概率 ,同时 频率 密度 曲线 上 那些 小 的 起 伏 和 涨 落 也 逐步 平滑 
消失 ,频率 密度 曲线 趋向 概率 密度 曲线 。 如 果 把 属性 的 取 值 作为 自 变量 ,用 x 表示 ,那么 
反映 概率 密度 曲线 的 函数 就 用 f(x) 表示 。 这 时 计算 x BEE a,b 之 间 的 概率 (Pia < х 
< 61), 要 用 数学 上 所 谓 的 定 积分 的 方法 : 


Ріа<х<ШЫ = | ош (4-22) 
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频率 密度 (%/mm) 


-2 
20 308 16 40 50 


24 29 34 39 
Ай Ж Ж (mm) Дд ЖОЙ 度 mm 
图 4-4a 蛤 堆 项 贝克 宽度 的 频率 密度 分 布 (a) 图 4.4b 蛤 堆 顶 贝 席 宽度 的 频率 密度 分 布 (b) 
频率 密度 分 布 直方 图 及 正 态 拟 合 曲线 频率 密度 分 布 曲线 


公式 (4-22) 中 的 “ | ”是 积分 符号 , 它 是 一 个 拉 长 了 的 “S”,“S” 是 英文 字 “Sum”( 总 和 ) 
的 第 一 个 字母 。 积 分 在 某 种 意义 上 就 是 求 和 。a 和 上 称 为 定 积分 的 上 下 限 ,表明 需要 计 
算 概率 密度 曲线 F(x) FABRA a, 5] 界定 的 面积 上面 的 式 子 读 为 “对 函数 f(x) 从 a 


到 5 的 定 积分 ", 它 是 一 个 确定 的 数值 ,需要 说 明 ,对 于 离散 型 的 随机 变量 , 则 可 以 讨论 该 
变量 取 某 个 数值 的 概率 ;而 对 于 连续 型 的 随机 变量 ,讨论 它 取 某 个 数值 的 概率 是 没有 意 
义 的 ,应 该 讨论 它 取 值 在 某 个 区 间 [ a，5] 的 概率 。 对 于 高 散 型 的 随机 变量 ,需要 了 解 它 的 
概率 分 布 函数 ,而 对 于 连续 型 的 随机 变量 ,需要 了 解 它 的 概率 密度 函数 /(*)。 有 了 上 面 
的 基本 知识 ,可 以 讨论 正 态 分 布 函数 。 | 
452 正太 分 布 函数 及 其 性 质 

正 态 分 布 的 函数 是 概率 密度 函数 , 它 的 分 析 形式 是 

1 „4-80 | 
Жж талы 26 е (4- 23) 

式 中 的 = 和 。 分 别 是 圆周率 和 自然 对 数 底 两 个 常数 。 正 态 函 数 包含 两 个 参数 Ao, Ri 
它 也 党 被 写 成 N(p,0) o 后 面 可 以 看 到 y от 分别 是 正大 本 数 的 数学 期望值 (总 体 平均 
值 ) 和 方差 。 图 4-5 显示 了 正 态 函数 的 分 布 图 。 

从 公式 (4-23) 和 图 4-5 可 以 看 到 , 正 态 分 布 有 下 列 的 性 质 ， | 

(1) ФИНЕ", Ш = 为 中 心 , 中 间 高 两 端 低 且 左右 对 称 , 即 有 

ажы! = и + х) | ` (4-24) 

在 * = и лала хн, EF) BREESE SC) WERA, 
向 于 零 而 不 等 于 零 , 正 态 曲线 以 模 轴 为 浙 近 线 。 

(2) 昌 线 下 面 的 面积 与 和 a 无关, 总 是 等 于 1。 或 者 说 正 态 分 函数 从 - 到 = 的 
积分 值 等 于 1。 因 为 随机 变量 在 [- =, =] 区 间 取 值 是 一 个 必然 事件 。 。 
«ашке ст» 272 dx = 1 (4-25) 


P|- œ 
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图 4-5 正 态 分 布 函数 图 (=20,c= 4) 
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图 4-6 4 和 值 变化 (p=20 和 p=24) 导 致 正 态 分 图 4-7 co 值 变化 (c=2 和 ao=4) 和 导致 正 态 分 布 
布 曲线 左右 移动 ,但 曲线 的 形状 不 发 曲线 峰值 高 矮 和 曲线 胖 瘦 的 变化 ,但 
生变 化 曲线 的 中 心 位 置 不 变 


公式 (4-25) 称 为 正 态 函数 的 归 一 化 条 件 。 

(3) 当 p 变化 时 ,图 形 左右 移动 而 形状 不 发 生变 化 ,如 图 4-6 Ят; Ч о 变 大 时 ,曲线 
位 置 不 动 但 峰值 变 低 图 形变 “ 胖 ”", 反 之 , о 变 小 时 ,峰值 变 高 图 形变 “着”, 如 图 4-7 
所 示 。 

(4) 可 以 证 明 , 和 分 别 是 正 态 分 布 的 数学 期 望 值 E(x) 和 方差 р(х) „13.2 节 讨 
论 求 分 组 样本 的 平均 值 时 , K 3-3 曾经 讨论 , 用 各 组 的 中 数 与 频率 乘积 的 累计 和 


( > ac) 来 蔡 代 样本 的 总 平均 值 ,而 且 当 样本 容量 "很 大 时 ,两 者 趋向 一 致 因 此 类 似 有 
下 面 的 式 子 求 El) 


2 


L e 


E(x) -| 去- 2 
本 书 不 可 能 去 求解 这 个 定 积分 的 数值 ,只 是 写 出 结果 为 we。 同 理 可 计算 方差 р(х) 


dx = y (4-26) 
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1 (ezu) 
e 2 


м 2ла 22 


р(х) = F (х – и)? dx = о? (4-27) 
4.5.3 标准 型 正 态 分 布 


正 态 函数 包含 и Жо 两 个 参数 ,实际 应 用 时 计算 比较 麻烦 。 需 要 将 正 态 函 数 公式 
(4-23) 转换 成 对 不 同 的 y 和 = 都 适用 的 标准 型 正 态 函数 公式 。 为 此 对 变量 x 做 如 下 变换 : 


Z= 一 (4-28) 
Z 称 为 Z 分 量 或 称 标准 分 .将 Z 的 表达 式 (4-28) 代 人 公式 (4-23) ,可 以 得 到 
1 2 
fZ) = V 2 (4-29) 


公式 (4-29) 是 标准 型 的 正 态 分 布 函数 。 对 于 标准 型 的 正 态 分 布 , 它 的 数学 期 望 值 Е(27) 
= 0, 和 方差 D(Z) = 1。 公 式 (4-28) 所 执行 的 变量 转换 的 功能 是 ;(1) 把 正 态 曲线 平移 ,使 
其 中 心 移 到 坐标 原点 位 置 ;(2) 改变 横 轴 的 度量 尺度 ,使 得 。= 1, 即 用 标准 差 o 作为 横 坐 
标的 度量 单位 ,对 于 Z 同样 可 以 写 出 : 

(1) 归 一 化 条 件 


41045 
P- ж g Z = ©} = Г Jin 247 = 1 (4-30) 
(2) ЗСЕЗННМЕ Е(7) = 0 (4-31) 
(3) ӘЗ р(х) = о? = 1 (4-32) 


标准 型 正 态 分 布 函数 常 写 为 W(0,1) , 它 实 际 上 是 一 般 型 正 态 分 布 N(y,o) 的 一 个 特 
殊 形式 。 两 者 之 间 很 容易 相互 转换 ,在 后 面 介绍 正 态 分 布 的 应 用 实例 中 经 常 要 进行 转换 。 
下 面 是 根据 公式 (4-28) 得 到 的 一 张 转换 表 。 


#42 x 与 Z 间 的 转换 关系 
0 1 a 2 
图 4-8 和 表 4-3 显示 了 标准 型 正 态 分 布 曲线 下 各 部 分 的 面积 ,也 就 是 Z 在 一 定 取 值 
范围 内 的 概率 。 


Жаз ESSR ZM: 在 一 定 取 值 范围 内 的 概率 


7 的 取 值 范围 相应 x 的 取 值 范围 概率 值 (% 
- 0.674 < 7 < 0.674 и -0.6740 < х = џи + 0.6740 50 
е = іш 
А = х < 99 


) 
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о 
ол 


标准 型 正 态 分 布 函数 值 N (0,1) 
о 
记 


48 标准 型 正 态 分 布 图 


Ж 4-3 中 所 列 是 一 些 常 用 数值 ,最 好 能 记 见 在 心 ,方便 于 经 常 使 用 , 表 的 最 后 2 行 反 
喘 了 正 态 函 数 分 布 的 左右 对 称 性 。 

在 任何 一 本 统计 学 的 书 中 都 可 查 到 标准 正 态 函 数 表 。 但 表 中 一 般 不 给 出 标准 型 正 
态 函 数 的 概率 密度 值 AZ) ,而 是 列 出 УЕТШЕ Жөн ФО); 


Р|{- ® <ё< 7} = Ф(7) = 


“е аё (4-33) 


标准 正 态 函数 表 也 可 以 反 过 来 查 , 即 已 知 某 累积 概率 值 Ф(2),Ж 7 应 等 于 什么 数值 。 
使 用 微软 的 EXCEL 软件 ,可 以 方便 地 得 到 正 态 分 布 函 数 的 有 关 数 值 。 
NORMDIST (х,у, е ‚ true) 返 回 小 于 某 个 数值 的 累积 概率 B(x%x) ,例如 输入 x = лн + c, 返 
回 的 应 是 0.8413。 而 NORMDIST (х,у, о, false) ,返回 的 是 赋值 为 x 时 正 态 函数 本 身 的 数 
值 , 即 正 态 函 数 的 概率 密度 值 , 正 态 函 数 的 概率 密度 值 在 一 般 的 统计 学 书 中 是 不 易 查 到 


的 。 例 如 输入 NORMDIST(0, 0, 1, false), ,返回 的 应 是 5 = =0.399 , 即 标准 型 正 态 函数 的 


峰值 。EXCEL 软件 还 给 出 正 态 函数 反 函 数 的 数值 ,输入 累积 概率 值 ,返回 相应 的 Z 值 。 
函数 形式 是 NORMINV( 累 积 概率 值 , y,o)。 例如 输入 NORMINV(0.8413, wm,c) ,返回 的 是 
(u + с), 输入 NORMINV(0.5, 0, 1), 返回 的 是 0。 


4.5.4 正 态 分 布 的 应 用 实例 


(1) 美国 调查 统计 了 五 年 级 学 生 的 智商 IQ 值 , 表 明 10 值 服 从 正 态 分 布 ,IQ 的 平均 值 
为 100 ,标准 差 为 5。 现 在 要 问 某 个 五 年 级 学 生 的 IQ 需 高 于 多 少 ,才能 列 人 最 聪明 的 
10% 8, 

Ж: EM Ф(2) -1-0.1-0.9 

查 标准 正 态 函数 表 ( 反 查 ) ,得 到 2 =1.28 

计算 (IQ - 100)/15 -1.28, 解 此 方程 得 到 IQ = 119.2 

答案 :五 年 级 学 生 的 IQ 需 高 于 119.2 ,才能 列 入 顶尖 的 10 % 。 

(2) 假设 某 地 区 某 年 有 40000 人 报考 大 学 理工 科 ,录取 20000 人 。 已 知 每 个 考生 的 总 
分 接近 正 态 分 布 ,平均 分 为 545 分 ,标准 差 为 30 分 , 问 有 多 少 人 因 1 分 之 差 而 未 被 录取 。 
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因为 录取 人 数 为 报考 人 数 的 一 半 , 考 生 的 平均 分 也 就 是 录取 分 数 线 。 

Ж.Ж EXCEL 的 NORMDIST 函数 ， 

NORMDIST (х, с, о, true) = МОКМРІЅТ(544, 545, 30, іше) = 0.4867 

已 知 “545 ”是 平均 分 ,根据 正 态 函 数 的 对 称 性 必然 有 NORMDIST(545, 545, 30, true) 
=0.5000 

差 1 分 未 被 录取 的 人 数 = 总 报考 人 数 x 考分 在 [544,545] 区 间 的 概率 

40000 x (0.5 – 0.4867) = 533(Л), 

答案 :4 万 考生 中 有 53 人 以 1 分 之 差 而 未 被 录取 。 

(3) 碳 十 四 测 年 所 给 出 的 数据 也 是 服从 正 态 分 布 的 。 璧 如 说 碳 十 四 实验 室 报告 对 蘑 
个 样品 的 测 年 结果 是 “公元 前 2460 + 40 年 ”, 其 中 2460 年 是 实际 测量 结果 ,而 40 年 是 测 
量 的 标准 差 。 因 为 服从 正 态 分 布 ,这 个 报告 的 含义 是 ,样品 的 碳 十 四 年 龄 有 68.3% 的 概 
率 落 在 公元 前 [2500,2420] 的 年 代 区 间 , 有 95.5% 的 概率 落 在 公元 前 [2540,2380] 的 年 代 
区 间 。 

(4) 本 节 前 面 我 们 曾 提 到 牟平 县 峻 堆 顶 贝 丘 遗 址 第 3 层 2300 多 个 Venerupis variegata 
种 贝壳 宽度 的 测量 值 接近 于 服从 正 态 分 布 。 如 果 这 个 推论 正确 ,那么 应 该 有 大 约 68.3% 
贝壳 的 宽度 值 处 于 [jy - c,w + с] 区 间 中 。 希 望 验证 实际 上 宽度 处 于 [w - c,w + о] KK 
的 贝壳 的 百分数 是 否 接近 理论 值 68.3% „н Жос 是 蛤 堆 顶 遗址 第 3 层 这 类 贝壳 全 部 个 体 
的 宽度 的 平均 值 和 标准 差 ,是 未 知 的 。 对 这 2300 多 个 个 体 所 组 成 的 样本 ,其 个 体 宽度 的 平 


均值 和 标准 差 是 可 以 根据 测量 值 计 算 的 ,已 知 世 = 28.72 (mm) 和 s=5.11(mm)。 因 为 样 


本 的 容量 足够 大 ,可 以 用 XX 和 s 作为 和 o 的 估计 量 ,[w - c,m + с] 的 范围 就 是 [33.83， 
23.61] (шт), 统计 得 到 ,宽度 在 此 区 闻 的 贝壳 数 为 1550 个 , 除 以 总 个 体 数 2329, 计 算得 到 
宽度 落 在 此 区 间 的 贝壳 数 占 总 数 的 66.3 % ,与 正 态 分 布 的 理论 值 68.3% 相当 接近 。 也 
可 以 统计 宽度 小 于 и + 20 = 28.72 + 2 х 5.11 = 38.94 (mm) 的 贝壳 数 , 为 2270 个, 占 总 
数 的 97.3 0, 与 理论 值 Ф (2) = NORMDIST(2,0,1,TRUE) = 0.9773 也 十 分 接近 。 上 面 的 
比较 结果 可 作为 该 类 贝壳 的 宽度 服从 正 态 分 布 的 验证 。 
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5.1 考古 总 体 和 考古 样本 ,统计 推断 的 基本 思想 


考古 学 是 根据 实物 遗存 资料 去 复原 古代 社会 的 科学 。 但 是 考古 发 掘 的 资料 相对 于 
古代 社会 来 说 总 是 零星 不 完整 的 资料 ,两 者 间 是 局 部 (或 称 样本 ) 与 全 局 (或 称 总 体 ) 的 关 
系 。 另 外 还 需 考虑 到 ,古代 实物 遗存 长 期 埋 在 地 下 会 受到 人 为 和 自然 的 破坏 ,遗存 的 被 
发 现在 一 定 程 度 上 是 随机 的 。 所 以 英国 过 程 主义 考古 学 的 创始 人 D.L.Clarke 在 关于 考 
十 学 的 定义 中 为 “实物 遗存 资料 "加 了 修饰 词 ,说 考古 学 是 根据 "零星 不 完整 ,而 且 往 往 
是 “被 扭曲 了 ”的 实物 遗存 资料 去 复原 古代 社会 的 一 门 科学 。 

举例 来 说 我 们 想 知道 某 地 区 某 时 段 聚落 的 平均 面积 (jy) 有 多 大 ,理论 上 应 该 测量 该 
地 该 时 所 有 育 落 的 面积 ,然后 计算 它们 的 平均 值 。 但 这 是 不 可 能 实现 的 ,很 多 古代 聚落 今 
天 已 不 再 保存 ,或 者 还 没有 被 发 现 。 我 们 可 能 调查 测量 了 ”个 这 类 聚落 ,可 以 计算 由 这 n 
个 聚落 面积 所 组 成 的 样本 的 平均 面积 X。X 是 根据 已 发 现 的 诸 聚 落 面积 的 实际 观测 值 X 
НЕЮ, ху х, 一样 都 是 随机 变量 ,很 自然 地 我 们 会 考虑 用 样本 的 平均 值 了 ,去 


估计 该 地 区 该 时 段 所 有 聚落 的 平均 面积 ,或 者 说 用 ХЕ w 的 估计 量 。 

再 举 一 个 例子 。 黄 曹 平 (1996) 曾 对 周口 店 第 一 地 点 和 南京 汤山 两 地 肿 骨 鹿 下 颌 骨 
М, 处 的 平均 厚度 p 和 рео 作 测量 比较 ,观测 它们 之 间 的 差异 有 多 大 ,以 作为 判断 两 个 动 
物 群 在 时 代 上 是 否 能 区 别 早晚 的 旁证 。 具 体 的 做 法 是 测量 两 地 实际 发 现 的 若干 个 肿 骨 许 


下 颌 骨 М, 处 的 厚度 ,再 计算 它们 的 平均 厚度 X 和 X, 并 用 两 个 样本 的 平均 厚度 的 差别 
去 估计 两 个 动物 群 中 肿 骨 谭 下 颌 骨 М, 处 的 平均 厚度 yl 和 pa 之 间 的 差别 。 
第 三 个 例子 。 周 礼 《4 考 工 记 》 记 录 ,“ 金 有 六 齐 ,…… ,三 分 其 金 而 锡 居 一 , 谓 之 大 刃 之 


齐 "。 是 记录 战国 时 期 冶 适 青铜 剑 的 合金 配方 中 , 锡 合 量 的 设计 值 应 为 3 = 25%。 为 


了 判断 这 个 记录 是 否 正确 ,可 以 通过 测量 一 批 п 把 现存 的 战国 青 钢 剑 的 锡 含 量 , 比较 它 
们 的 平均 值 与 “25% "差别 有 多 大 ,来 判断 六 齐 说 关于 青铜 剑 的 合金 配方 是 否 符合 实际 。 

上 面 三 个 例子 都 是 涉及 总 体 和 样本 间 的 关系 。 我 们 看 到 总 体 是 被 研究 对 象 的 全 体 ， 
即 全 部 应 研究 实体 的 集合 ;而 样本 是 从 总 体 中 按 一 定 方法 抽取 出 来 的 有 限 数目 (T) Ж 
体 的 组 合 。 前 两 个 例子 是 用 样本 的 平均 值 或 平均 值 之 差 去 推断 去 估计 总 体 的 平均 值 或 
平均 值 之 差 , 属 于 对 总 体 参 数 的 估计 。 第 三 个 例子 是 使 用 样本 的 平均 值 去 判断 关于 总 体 
平均 值 的 某 个 理论 假设 是 否 符合 实际 ,属于 关于 总 体 参 数 的 假设 检验 。 总 体 的 参数 估计 
和 关于 总 体 假 设 的 检验 是 统计 推断 的 两 个 主要 方面 。 

可 以 看 出 ,对 考古 资料 的 研究 分 析 ,是 用 有 限 的 考古 资料 去 推断 古代 社会 情况 ,是 一 
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个 由 样本 推断 总 体 的 统计 推断 过 程 , 所 得 的 结论 只 具有 统计 学 的 意义 ,而 不 应 看 作 绝对 
真理 。 以 这 些 结论 作为 前 提 进 行 逻辑 推理 所 获得 的 考古 学 新 的 知识 同样 是 带 有 统计 性 
质 的 。 统 计 推 断 有 其 本 身 的 特点 和 规则 ,将 是 本 章 和 后 面 几 章 讨 论 的 内 容 。 本 章 主要 介 
绍 总 体 参 数 的 估计 ,而 第 六 .七 章 讨论 假设 检验 。 


5.2 样本 平均 值 的 分 布 和 样本 的 标准 误 


5.1 中 的 三 个 例子 显示 了 统计 推断 的 两 个 方面 :用 样本 的 平均 值 估计 总 体 的 平均 值 
和 用 样本 的 平均 值 去 检验 有 关 总 体 参 数 的 假设 。 这 两 方面 的 问题 都 与 样本 的 平均 值 有 
关 。 因 此 首先 要 讨论 样本 平均 值 的 有 关 性 质 。 

为 了 便于 理解 ,将 通过 日 常生 活 中 的 例子 来 进行 讨论 。 假 设 已 知 中 国 成 年 男子 的 平 
均 身 高 为 172 厘米 ,标准 差 为 5 厘米 ,而 且 身 高 Х 接近 于 正 态 分 布 。 因 为 身高 服从 正 态 分 
布 , 约 有 68.3% 的 成 年 男子 其 身高 在 167 到 177 厘米 之 间 。 如 果 现 在 随机 地 抽取 п 个 个 体 


(ЖАЙ, 100 人 ) ,并 测量 了 他 们 的 身高 X;, 可 以 计算 出 这 个 样本 的 平均 值 X, 。 再 随机 另外 


抽取 100 人 ,又 可 以 得 到 第 二 个 样本 的 平均 值 3,。 继 续 抽 
а: п=1 取 个 体 ,可 以 得 到 多 个 ( 臂 如 说 r 个 ) 容量 为 ”= 100 的 样 
本 。 每 个 样本 有 一 个 平均 值 (у = Б” ХЕ 
A 一 般 是 不 相等 的 ,它们 是 一 个 新 的 随机 变量 。 我 们 需要 
研究 这 个 新 随机 变量 的 分 布 , 它 的 数学 期 望 值 , 方 差 和 标 
准 差 。 


5.2.1 样本 平均 值 XHAM 


男性 身高 的 原始 分 布 是 接近 正 态 分 布 的 ,而 一 般 情 

况 下 随机 变量 的 分 布 可 能 是 各 种 各 样 的 ,例如 4.2 中 介 

A 7 K 绍 的 均匀 分 布 和 二 项 式 分 布 等 。 在 实际 中 还 可 能 出 现 双 
峰 的 分 布 .不 对 称 的 分 布 等 。 在 统计 学 中 有 一 条 著名 和 且 

重要 的 定理 , 叫 中 心 极 限定 理 。 它 能 证 明 , 不 论 原始 的 分 

布 是 什么 形式 ,只 要 样本 的 容量 n 足够 大 (一 般 定 n > 


c n=30 ”30) ,样本 平均 值 蕊 的 分 布 总 是 接近 正 态 分 布 的 ,mn AK, 

分 布 愈 趋 近 正 态 。 本 书 不 可 能 来 证 明 这 个 定理 , 而 是 通过 

7 从 均匀 分 布 总 体 中 抽取 的 样本 ,样本 平均 值 随 样 本 容量 

Ш жау 增加 而 趋向 正 态 分 布 的 例子 ,来 显示 这 个 “趋向 "过程 。 图 
和 人 下 O 5-14 是 随机 抽 -- 张 扑克 牌 得 到 的 Х ИШ 1 到 13 的 均 多 
1,n =2 和 nn = 30 时 样本 分 布 (本 图 和 图 4-1 是 同一 图 ) ,其 总 体 平 均值 w = 7。 如 果 

平均 值 的 概率 分 布 图 ( 引 抽 了 一 张 牌 后 放 回 再 抽 第 二 张 , 即 随机 并 独立 抽取 2 张 扑 

自 Spate,1989) 克 牌 ,其 平均 值 的 概率 分 布 如 图 5 - 1b 所 示 。 分 布 已 从 均 

匀 分 布 的 长 方形 变 成 了 左右 对 称 的 三 角形 , 分 布 的 中 心 
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PET 处 。 分 布 的 “ 趋 中 ”可 以 这 样 理解 ,分 布 的 最 外 两 端 例如 2 张 牌 的 平均 值 为 13 或 1 
这 类 事件 的 出 现 , 必 须要 求 2 次 抽样 结果 都 是 13 或 者 都 是 1, 这 类 事件 的 概率 是 1/169。 而 
2 张 牌 平均 值 为 7 的 事件 ,可 以 通过 2 次 抽 7, 第 1 次 6 和 第 2 次 8, 第 1 次 8 和 第 2 次 6… 
等 共 15 种 过 程 来 实现 ,因此 先后 独立 抽取 2 张 牌 ,平均 值 为 7 的 概率 为 157/169。 平 均值 的 
分 布 范围 仍 为 1 一 13, 但 中 央 部 位 出 现 的 概率 要 高 于 两 端的 , 而 且 相对 于 中 心 是 左右 对 称 
的 。 还 需 指 出 , 单 次 抽 牌 只 可 能 有 1—13 Ж 13 种 结果 ;而 2 张 牌 的 平均 值 除 13 个 整数 外 ， 
还 会 出 现 1.5 一 12.5 等 12 个 半 整 数 。 随 着 抽样 次 将 的 增加 ,平均 值 虽 仍 介 于 1 一 13 间 ,但 
可 能 取 值 的 数值 却 不 断 增 加 ,并 愈益 趋向 连续 化 。 图 5-1c 是 30 次 随机 独立 抽 扑 克 牌 , 即 n 
= 30 的 样本 的 平均 值 的 概率 分 布 ,从 图 看 出 它 已 非常 接近 正 态 ,而 且 这 个 新 随机 变量 的 
总 体 平均 值 仍 是 “7” ,日 左右 对 称 。 这 张 图 还 显示 , 随 п 的 增 大 ,样本 平均 值 分 布 趋向 正 态 
的 过 程 是 很 快 的 .用 统计 学 的 术语 是 ,收敛 很 快 。 


5.2.2 样本 平均 值 的 数学 期 望 和 方差 
原始 观测 数据 .X; 是 从 一 个 其 平均 值 为 w ,方差 为 o 的 总 体 中 随机 抽取 出 来 的 , 即 有 
Е(Х) = p 和 D(X) = os。 可 以 求 容量 为 п 的 样本 的 平均 值 X 的 数学 期 望 和 方差 
Е(Х) = Е(-— Уух) = HDE) = 20) = и (5-1) 


D(X) = D( Уха) = эро) = е (5-2) 


这 两 个 公式 显示 样本 平均 值 蕊 的 数学 期 望 和 单 次 观测 值 X 的 数学 期 望 值 是 相等 的 ， 
都 是 w 。 而 样本 平均 值 忆 的 方差 却 比 单 次 观测 值 ,的 方差 小 ,前 者 是 后 者 的 n 分 之 一 ,为 


因为 总 体 的 方差 d 往往 是 未 知 的 ， 经 常用 样本 的 方差 ЖЕК, 这 样 对 于 样本 平均 
值 的 方差 可 以 写 出 下 面 的 公式 


2 
52 = 二 (5-3) 
п 


而 样本 平均 值 X 的 标准 差 为 
= 一 (5-4) 

s 又 称 为 样本 的 标准 误 。 标 准 误 是 原始 观测 数据 的 标准 差 s 的 Yn 分 之 一 。 在 5.3.1 
小 节 中 我 们 将 说 明 样 本 方差 52 是 总 体 方差 o? 的 最 佳 估计 量 。 

综合 5.2.1 和 5.2.2 两 小 节 的 内 容 , 结 论 如 下 :不 论 原 始 观测 数据 X 服从 什么 分 布 ， 
只 要 样本 的 容量 足够 大 п > 30, 样 本 的 平均 值 臣服 从 以 总 体 的 平均 值 и 为 数学 期 望 值 ， 
以 总 体 方差 о? 的 ”分 之 一 为 方差 的 正 态 分 布 。 

回 到 我 国 成 年 男子 身高 的 例子 ,100 个 男子 身高 的 平均 值 服从 正 态 分 布 ,了 和 单个 
男子 身高 X, 有 相同 的 数学 期 望 值 /: = 172cm ,但 前 者 的 方差 小 得 多 , 仅 为 后 者 的 一 百 分 之 
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一 , 或 者 说 前 者 的 标准 差 仅 为 后 者 的 十 之 一 ,已 知 的 标准 差 为 5cm, 前 面 已 提 到 , 约 有 
68.3% 的 成 年 男子 个 体 其 身高 在 167 到 177 厘米 之 间 。 现 在 随机 抽取 了 很 多 组 男子 ,每 
组 都 是 100 人 ,那么 组 平均 身 商 的 标准 差 为 二 =0.5cm, 即 约 有 68.3% 的 组 其 平均 身 
高 处 于 171.5 到 172.5 厘米 之 间 。 显 然 各 组 平均 身高 之 间 的 涨 落 远 小 于 个 体 之 间 身 高 的 


涨 落 。 
53 总体 方差 的 点 估计 和 大 样本 总 体 平均 值 的 区 间 估 计 


需要 指出 ,本 节 下 面 讨 论 仅 限于 п > 30 的 大 样本 的 情况 。 总 体 平均 值 wk 和 总 体 方差 


в? 是 总 体 的 两 个 参数 ,它们 有 固定 的 数值 ,但 经 常 是 未 知 的 ,而 样本 平均 值钱 和 样本 方差 
52 是 随机 变量 ,是 由 实际 观测 结果 计算 而 得 的 ,经 常 需要 用 实测 数据 来 对 总 体 参 数 作 信 
计 , 或 者 说 把 后 者 作为 前 者 的 估计 量 。 如 果 用 一 个 确定 的 数值 去 估计 总 体 参 数 , 称 为 总 体 
参数 的 点 估计 ,但 经 常用 一 个 数值 范围 去 估计 总 体 参 数 , 称 为 总 体 参数 的 区 间 估 计 。 

因为 对 总 体 平均 值 的 区 间 估 计 涉 及 对 总 体 方差 的 估计 ,因此 先 讨 论 总 体 方差 cz 的 点 
估计 。 


5.31 总 体 方差 r 的 点 估计 


第 三 章 公式 (3-4) 给 出 了 方差 的 计算 公式 8 = 工 > (л, - 元 )* 但 是 这 样 计算 的 样本 
方差 $+ 并 不 是 总 体 方差 oz 的 最 佳 估计 。 而 计算 样本 方差 的 公式 (3.7), Шо - 
с хн агае o? 的 最 佳 估计 。 所 谓 最 佳 估 计 是 要 求 估计 量 满足 
无 偏 有 效 和 一 致 性 等 三 个 条 件 。 为 什么 分 母 上 要 用 (n - 1) Ж п 才能 得 到 a? 的 最 佳 估 
计 呢 ,这 里 不 可 能 对 此 作 详 细 的 讨论 ,我 们 仅 指出 计算 样本 方差 的 公式 本 来 应 该 是 р(х) 
- PHE _ p? ,但 在 公式 (3-4) 计算 ын ХҚТ ЖИЙ u, ATE 52 的 数值 


偏 小 ,小 于 D(X)。 为 此 把 公式 (3-4) 的 分 母 n 相应 改 成 (n - 1), 以 作 补 偿 。 同 样 的 理由 需 
要 用 样本 的 标准 差 * ,而 不 是 $ 作为 总 体 标准 差 o 的 估计 量 ( 严 格 地 说 ,s 并 不 是 c 的 最 佳 
估计 ,但 是 对 于 o 的 估计 ,s ERF S 的 )。 

关于 总 体 方差 о? 的 区 间 估 计 将 在 5.5 中 讨论 。 


5.3.2 总 体 平均 值 的 点 估计 和 区 间 估 计 


样本 平均 值 X 和 任何 一 个 实际 测量 值 X 原则 上 都 可 以 作为 总 体 平均 值 w 的 估计 量 。 
但 在 前 一 节 已 看 到 XX 比 xX 的 离散 性 小 ,有 更 大 的 概率 接近 于 总 体 的 平均 值 y, REX 
и КИНЕ X Т X( 见 图 5-2)。 当 然 也 可 以 用 样本 的 中 数 ,甚至 样本 的 几何 平均 值 来 信 
H w, 但 在 所 有 的 估计 量 中 XÆ 的 最 佳 点 估计 。 另 一 方面 , 当 平均 值 的 概念 应 用 于 连续 


第 五 章 ”统计 推断 和 总 体 参 数 的 估计 51 
性 的 数量 属性 时 ,不 太 适 宜 用 一 个 确定 的 数值 作 点 估计 ,而 更 适宜 于 用 一 个 数值 区 间 来 
估计 ,后 者 称 为 总 体 平均 值 的 区 间 估 计 。 
这 里 自然 会 想到 用 [X -s X+ s_] 作为 总 体 平均 值 w 的 区 间 估 计 。 这 个 区 间 以 碟 
Х X 
为 中 心 ,2 倍 的 标准 误 。 为 宽度 。 下 面 以 Dorset 地 区 巨 右 文化 柱 洞 直径 的 数据 为 例 讨 论 
X 


4 的 区 间 估 计 。 这 个 样本 测量 了 n = 35 个 数据 ,已 知 样本 的 平均 值 为 = 43.80 сп, 标准 

ŻY s = 9.03 ст. 计算 得 到 这 个 样本 的 标准 误 ; = = 1.53 ст, 因此 相应 的 估计 区 
Х 

ІҢ 37 43.80 + 1.53 ст, 即 [42.27, 45.33] сп. 现在 必然 要 提出 的 问题 是 ,这 个 估计 区 间 的 


置信 度 有 多 高 , 即 有 多 大 的 可 能 性 jy 落 在 这 个 区 间 之 中 。 因 为 在 本 例 中 ,样本 的 容量 为 35 
> 30, 属 大 样本 ,无 应 接近 于 正 态 分 布 。 上 述 区 间 [ 了 + s] 的 宽度 为 2 个 标准 误 ,可 知 这 个 
区 间 估 计 的 置信 度 应 为 68.3% , 即 有 68.3% 的 可 能 性 总 体 平均 值 x 处 于 这 个 区 间 之 中 。 
[Х+ ғ] 称 为 置信 和 度 为 68.3% 的 置信 区 间 。 对 此 也 可 以 理解 成 :如 果 我 们 有 100 有 同样 容 


量 的 样本 ,那么 100 个 [和 + s ] 区 间 中 ,大 致 有 68 个 区 间 把 总 体 平均 值 y 包含 其 中 。 区 间 
Х 


ЕЕЕ НИН 


0] 


0.21 
0.1 

ҚД Сн 一 样本 均值 分 布 
КЕЛЕР КЛ … 测 量 数据 分 布 


29 34 39 44 49 54 59 
柱 洞 直 径 (сіп) 


5-2 ”以 Dorset 地 区 柱 洞 直径 样本 为 例 , 显 示 样 本 平均 
值 比 单 次 测量 值 接 近 总 体 平均 值 的 概率 更 高 ,后 
者 应 为 43.8cm 左右 


上 面 的 讨论 是 给 定 估计 区 间 的 宽度 后 , 求 估计 的 置信 和 度 。 反 过 来 怎样 在 设 定 置信 度 
要 求 的 条 件 下 寻找 相应 的 估计 区 间 呢 。 定 义 a = (1 - ERE), a 称 为 显著 性 水 平 。 璧 如 
说 希望 找 置 信 度 为 95% , 即 显著 性 水 平 c =1-0.95 =0.05 的 区 间 估 计 。 因 为 置信 区 间 


是 以 对 为 中 心 向 两 侧 伸 展 的 ,而 正 态 分 布 曲线 以 py 为 中 心 左 右 对 称 的 ,应 该 找 正 态 分 布 
函数 的 累积 概率 函数 Ф(2) = > 的 位 置 Zs 。 置 信和 度 为 (1 - а) 的 估计 区 间 应 该 是 
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[Х + 255118 [х + Z; = | | (5-5) 


Ша = 0.058, RÆ Ф(2) = 0.025 的 位 置 Zous 可 以 通过 查 正 态 函 数 表 ,或 用 EX- 
CEL 软件 NORMINV(0.975,0,1) KIR Zo ozs H9 fE , Zo ozs =1.96。 因 此 相对 于 显著 性 水 平 


为 0.05 或 置信 度 为 95% 的 置信 区 间 是 [了 41.96:_] 或 | + 1.96-Є] 。 对 于 Dorset 地 区 
Х п 


ЖИЕ Ж БНИИНҤЕ@К ФП #,Б ШШ X -43.80сп, 5 =1.53em, 计 算得 :1.96x1.53 = 3. 


Х 
00cm,， 由 此 显著 性 水 平 为 0.05 的 总 体 平 均值 的 置信 区 间 是 [43.80 + 3.00]ст 或 
140.80,46.801ст. 


5.3.3 ВЕНИ ИЕ екин ДАЛЕ = ҖЕНЕ Ж 
从 公式 (5-5) 可 以 看 到 ,用 样本 的 平均 值 估计 总 体 平均 值 时 ,(1) 显著 性 水 平 а RE 
信 度 (1 - а) (2) 置信 区 间 的 宽度 | 22$ E) жұз) 样本 的 容量 n 等 三 个 量 之 间 存 在 确定 


п 


的 关系 ,在 样本 容量 n 一 定 的 条 件 下 ,显著 性 水 平 a 值 越 小 , 置信 度 越 高 ,置信 区 间 也 越 
宽 。 置 信 区 闻 的 宽度 反映 估计 的 精密 度 。 因 此 估计 的 置信 和 度 和 精密 度 之 间 是 互相 制约 
的 。 提 高 其 中 的 一 个 指标 是 以 牺牲 另 一 个 指标 为 条 件 的 。 为 了 在 不 变 的 置信 和 度 下 ,提高 
估计 的 精密 度 ,唯一 的 方法 是 增 大 样本 的 容量 ,获取 更 多 的 观测 数据 。 当 然 增 加 观测 数 
据 是 以 付出 更 多 的 研究 精力 和 经 费 为 条 件 的 ,而 且 对 于 考古 研究 而 言 ,增加 观测 数据 有 
时 客观 上 是 不 被 允许 的 。 

再 次 回 到 Doret 地 区 巨石 文化 柱 洞 直 径 的 例子 ,上 面 已 计算 得 到 这 个 n = 35 的 样 


本 ,其 平均 值 为 43.80ст, 标准 误 s。 = = 1.53cm。 置 信和 度 为 68.3% 的 估计 区 间 
X 


[42.27 ,45.33]cm A REW 3.06сш„ WRAAE A ЕМЕНІ 95% ,置信 区 间 就 应 放宽 到 
2x1.96x1.53=6.00cm, 即 用 区 间 [43.80+3.00]cm 去 估计 。 如 果 希 望 仍 在 95% Ж {ДЖ 
下 ,置信 区 间 的 宽度 减 为 3om, 就 应 该 增加 测量 数据 。 至 少 应 测量 多 少 个 柱 洞 的 直径 呢 ? 
列 出 方程 


2х1.96х 2:03 -3 


Vn 
解 此 方程 , 得 п = 139, 需要 测量 139 个 柱 洞 的 直径 。 在 同等 的 置信 和 度 的 条 件 下 ,要 
使 置信 区 间 缩 窗 到 原来 宽度 的 一 半 , 即 估计 的 精密 度 提 高 1 倍 ,必须 把 观测 的 数据 量 增 
加 4 倍 。 当 然 对 于 Dore 地 区 柱 洞 直径 的 例子 ,有 可 能 找 不 到 这 么 多 的 柱 洞 。 


5.4 观测 数据 少 的 小 样本 的 总 体 平 均值 的 估计 和 t 分 布 


5.41 分 布 函数 及 其 性 质 
上 节 讨 论 了 大 样本 情况 下 对 总 体 平 均值 的 估计 。 但 是 有 时 候 所 掌握 的 观测 数据 量 
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很 少 ,n < 30。 这 种 情况 在 考古 学 研究 中 ,特别 是 在 旧 石 器 考古 研究 中 经 常会 遇 到 的 。 鉴 
于 人 类 活动 的 遗存 长 年 坦 于 地 下 而 受到 破坏 和 丢失 ,考古 学 家 总 是 苦于 材料 的 贫乏 。 当 


然 对 于 这 类 观测 数据 量 很 少 的 小 样本 同样 可 以 计算 它们 的 样本 平均 值 ,不 过 小 样本 的 


平均 值 蕊 一 般 不 服从 正 态 分 布 。 因 此 上 节 讨 论 的 内 容 不 能 照搬 应 用 于 小 样本 ,需要 引进 
一 个 新 的 、 小 样本 平均 值 所 服从 的 分 布 函数 , 称 为 上 分 布 函数 。 统 计 学 中 证 明 如 果 小 样本 


所 来 自 的 总 体 服从 正 态 分 布 , 即 单个 测量 值 х, 服从 正 态 分 布 ,那么 小 样本 的 平均 值 ХОЙ 
M 分 布 。 或 者 更 正确 地 说 ,对 小 样本 平均 值 蕊 标准 化 后 所 得 的 统计 量 : 


Х-и 
8 


Үп 
服从 自由 度 df = (п - 1) 的 ; 分布。 也 可 写 为 


А-а -а(һ-1) 22 (5-6) 


Ма 
这 里 引进 了 统计 学 中 广泛 运用 的 关于 自由 度 的 概念 ,自由 度 在 这 里 可 以 简单 地 理解 
为 观测 数据 的 数目 (п) 减 去 为 决定 某 些 量 所 使 用 的 关系 的 数目 。 在 定义 上 的 公式 (5-6) 中 


用 了 样本 的 标准 差 ,而 计算 s 时 ,默认 和 使 用 了 У(Х, - X) = 0 这 个 关系 式 ,因此 样本 
的 m 个 元 素 中 只 有 (nm - 1) 个 是 独立 的 ,自由 度 等 于 (n - 1)。t 分 布 的 函数 形式 较 复杂 ,我 
们 仅 显 示 不 同 自 由 度 : 分 布 函数 的 图 ,如 图 5-3。 

从 图 可 见 ; 分布 函数 的 形状 与 标准 型 的 正 态 分 布 很 相似 ,只 是 概率 密度 曲线 总 体 上 
RER AET ot 分 布 有 如 下 的 一 些 性 质 , 其 中 (1) 至 (4) 可 以 从 图 5-3 直接 看 出 : 

(1) 与 标准 型 的 正 态 分 布 , 即 Z 分 布 类 似 ,i 分布 以 : = 0 为 中 心 ,左右 对 称 , 随 i 的 绝 
对 值 增加 ,函数 迅速 下 降 , 趋 近 于 截 。 | 

(2) t 分 布 函 数 的 值 总 是 正 的 ,而 曲线 下 的 总 面积 等 于 1。 

(3) ;分布 比 Z 分 布 的 离散 性 大 , 即 峰 值 偏 低 而 分 布 宽 .分 布 的 自由 度 qdf 越 高 ,离散 
性 越 小 , 当 df 大 于 30 时 ,: 分 布 将 十 分 接近 于 正 态 分 布 , 当 df 趋向 无 限 大 时 ,i 分 布 将 趋向 
正 态 分 布 。 

(4) :分布 的 数学 期 望 E(1) = 0。 

(5) + 分布 的 方差 D(1) = уң 很 大 时 ,分布 的 方差 趋 近 于 1。 

在 任何 一 本 统计 学 书 中 都 附 有 t 函数 表 。 可 以 查 表 得 到 不 同 自 由 度 的 上 函数 的 累积 
概率 值 。 也 就 是 说 ,给 定 显 著 性 水 平 c ,可 以 查 到 各 个 自由 度 情 况 下 的 玉 值 ,使 得 Pi: > 
t) = а 。 但 受 限 于 书 的 版 面 ,# 函数 表 只 能 对 有 限 的 若干 个 显著 性 水 平 值 < 列 出 相应 的 i。 
值 。 较 为 方便 的 是 使 用 Excel 软件 的 TDIST 和 ТІМУ 两 个 函数 找 函数 值 ,可 以 查 到 任何 
а А 和 任何 自由 度 时 的 i 值 或 相应 的 累积 概率 。TDIST (г, df , 双 侧 或 单 侧 ) 函数 是 根据 已 
知 的 上 值 和 自由 度 , 求 双 侧 或 单 侧 的 累积 概率 。 按 序 输入 上 值 , 自由 度 值 ,和 开关 和 值 “2” 或 
者 “1”, 函数 相应 返回 双 侧 累积 概率 P11 ; | х 或 单 侧 累 概率 Pit > xj。 例如 输入 
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-4.30 0 4.30 
图 5-3 不 同 自 由 度 的 i 分 布 酒 数 图 ( 引 自 Spatz, 1989) 


TDIST(2,30,2), 返回 df = 30 条 件 时 ,Pit > 2} + Pit < - 2} = 0.0546; 输入 TDIST(2， 
30,1) ,返回 Pit > 2} = 0.0273。 

TINV( 双 侧 累积 概率 ,自由 度 ) 是 TDIST 的 反 函 数 , 按 序 输入 双 侧 累积 概率 和 自由 度 ， 
返回 相应 的 : 值 , 使 得 Pl: >1 х1} = 输入 的 双 侧 累积 概率 值 。 例 如 输入 TINV(0.05 ,30) ， 
返回 2.04, 使 得 Ріг > 2.04} + РІ: < - 2.04} = 0.05, 


有 了 上 面 关于 :分布 函数 的 基本 了 解 ,可 以 返回 讨论 小 样本 情况 下 ,根据 样本 的 m ,下 
和 s 对 总 体 平 均值 w 的 区 间 估 计 。 给 定 显著 性 水 平 a, 查 表 可 找到 г, 区间 


X- 0. А n 产 | 就 是 置信 度 为 (1 - а) 对 и 的 区 间 估 计 。 


5.4.2 小 样本 总 体 平 均值 的 区 间 估 计 


在 某 旧 石器 遗址 的 一 个 地 层 中 发 据 出 13 片 石 片 , 它 们 的 重量 分 别 为 14.3, 14.1， 
13.6,13.5, 12.0, 11.5, 11.3, 10.9, 10.6, 9.8, 9.7, 9.3, 7.8 ( 克 )。 和 希望 用 这 个 样本 ， 
以 90% 的 置信 和 度 来 估计 该 地 层 中 石 片 的 平均 重量 uo 


计算 样本 的 平均 重量 下 = 11.4209) 
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四 
2 CX- Хх) 
样本 的 标准 差 = “атр” = 2.02( 克 ) 


- 1 
样本 平均 值 хі. = 7292 = 0.5609) 
X 


V 13 
自由 度 df = 12 


REWE - a) = 90% ,3 = 0.05 
查 表 或 计算 TINV(0.10,12) =1.78, 1.78 x0.56=1.10( 克 ) 
对 的 90% 置 信和 度 的 估计 区 间 [10.32,12.52]( 克 ) 
要 求 不 同 的 置信 和 度 ,会 得 到 不 同 宽度 的 估计 区 间 。 
最 后 需要 补充 说 明 一 点 。 本 节 开 始 时 , 曾 要 求 样本 所 来 自 的 总 体 应 该 服从 正 态 分 布 ， 
这 种 条 件 下 样本 的 平均 值 六 才 服 从 :分 布 在 考古 研究 中 ,经 常 不 清楚 原始 观测 数据 是 否 服 
从 正 态 分 布 ,还 因为 观测 数据 的 数量 少 ,无 法 画 出 它们 的 经 验 分 布 图 来 检验 观测 数据 是 否 
与 正 态 分 布 接近 。 因 此 难以 判断 使 用 i 分布 的 假设 前 提 是 否 成 立 。 所 幸 ; 分 布 的 宽容 度 相当 
大 ,即使 总 体 的 分 布 相当 程度 地 偏离 于 正 态 分 布 ,从 中 抽样 所 得 样本 的 平均 值 的 分 布 仍 接 
近 于 ;分布 ,因此 在 绝 大 多 数 情 况 下 ,处 理 考 古 数据 的 平均 值 时 我 们 是 可 以 用 上 分布 的 。 


5.5 ү 分 布 函数 和 总 体 方差 的 区 间 估 计 


551 样本 方差 的 分 布 和 у 分 布 函数 


在 5.3 中 曾 提 到 样本 方差 2 ЖАМАУ 2 о? 的 最 佳 估 计 , 和 用 样本 的 标准 差 s 作为 总 
体 标准 差 o 的 佑 计量。* 是 根据 诸 实测 数据 х, 计算 而 得 的 , 它 也 是 一 个 随机 变量 ,也 有 其 
分 布 的 规律 ,一 般 情 况 下 * 的 分 布 比较 复杂 ,但 是 如 果 已 知 X KESAEN, o), 
那么 可 以 证 明 ,统计 量 


Doa- х) 
іт - - “(п ~ 1) — x(n -1) (5-7) 


б с 
服从 自由 度 为 (n - 1) 的 x*( 读 作 卡 方 ) 分 布 yla - 1). 
C 实际 上 是 以 o? 为 度量 尺度 的 样本 的 离 差 平 方 和 。x? 函数 是 一 个 单 参数 的 函数 ,唯一 
的 参数 是 自由 度 ау 函数 的 分 析 表 达 式 比较 复杂 ,图 5-4 是 几 个 不 同 自由 度 的 x? 分 布 图 


xX 分布 图 与 Z 分 布 和 + 分 布 不 一 样 , 它 不 是 左右 对 称 的 。 但 x? 分 布 曲线 下 的 面积 也 
是 等 于 1 的 。 可 以 证 明 x? 分 布 的 数学 期 望 等 于 其 自由 度 df 


Есұхар) = df (5-8) 
而 у? 分布 的 方差 等 于 2 倍 的 自由 度 | 
Ю({?(4/)) = 2(4/) (5-9) 


入 分 布 函数 的 值 可 以 查 表 , 也 可 以 用 Excel 软件 中 的 CHIDIST 和 CHIINV 两 个 函数 来 
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12345678910 11 12 13 14 15 16 17 18 19 20 


54 不 同 自 由 度 的 x? 分 布 函数 图 (图 引 自 Spatz(1989) ) 
计算 。 因 为 六 分 布 的 非 对 称 性 , 表 中 总 是 给 出 单 侧 的 累积 概率 数值 。CHIDIST 函数 的 形式 
是 CHIDIST (x, 自 由 度 ) ,x 是 用 来 计算 分 布 的 值 ,返回 的 是 y > 4 的 概率 Pix > х}. 
如 要 计算 自由 度 = 12,X* > 20 的 概率 ,在 Excel 文件 中 键 人 CHISIST(20,12) ,将 返回 
Pix”> 20} = 0.067。 反 函数 CHIINV( 单 侧 累积 概率 数值 ,自由 度 ) 返 回 对 应 的 x? 值 .例如 自 
由 度 df = 12 时 ,要 找 x, 使 得 Pix? > x} = 0.067, Л CHIINV(0.067,12) ,将 返回 х = 20, 


5.5.2 总 体 方差 虽 的 区 间 估 计 * 


本 章 3.1 中 已 介绍 样本 的 方差 是 总 体 方差 o 的 最 佳 点 估计 ,并 且 知 道 了 在 总 体 服 
从 正 态 分 布 的 条 件 下 ,s* 服从 自由 度 为 (n - 1) 的 x? 分 布 。 现 在 可 以 在 一 定 的 显著 性 水 平 
a 下 给 出 a? 的 置信 区 间 。 由 于 x? 分 布 不 对 称 ， ша БУ ), 和 (xs )z 需要 分 别 找 。 


下 面 还 是 通过 Dorset 地 区 巨石 文化 石柱 洞 直径 测量 数据 的 例子 加 以 说 明 。 已 知 测 量 了 
n = 35 个 数据 ,样本 的 标准 差 = 9.03cm, 52 应 该 是 81.54 сп, Жа = 0.05 时 总 体 方差 
а? 的 置信 区 间 。 计算 函数 
(x? ) = CHINV(0.025,34) = 51.966 
2 


(x? )в = CHINV(0.975,34) = 19.806 
2 


利用 式 (5-7) 
2 _ (п-1)5?° _ 81.54 _ 2 
61 = 7 = 34 x 51.966 = 53.36 cm 
(5) 
› (љ-1)52 81.54 
= = 34 x ig gog = 139.98 сш? 


а-5) 


о, = 7.31ст оң = 11.83 cm 
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区 间 [53.36, 139.98]cmr 是 总 体 方差 o 的 95% 置 信和 度 的 区 间 人 和 估计, 而 [7.31, 11.83] 
cm 是 总 体 标准 差 о 的 95 % 置 信和 度 的 区 间 估 计 。 注 意 标准 差 佑 计 区 间 的 中 心 位 置 是 
9.67cm ,与 o 的 最 佳 估 计 值 S= 9.03cm 是 不 重合 的 , 即 最 佳 点 估计 值 并 不 处 于 估计 区 间 的 
中 央 。 为 了 在 不 变 的 显著 性 水 平 下 提高 对 总 体 方差 和 标准 差 佑 计 的 精密 度 ,唯一 的 方法 
同样 是 增加 观测 的 数量 ,也 是 以 增加 研究 经 费 和 延长 研究 时 间 为 代价 的 。 
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第 五 章 讨论 了 怎样 根据 样本 的 平均 值 和 方差 对 样本 所 属 总 体 的 平均 值 作 估计 。 本 
章 将 讨论 统计 推断 的 另 一 个 重要 方面 一 -假设 检验 , 主要 是 关于 总 体 平均 值 的 假设 检 
验 。 

考古 研究 中 经 常 要 求 比较 两 个 同 层次 实体 的 某 个 数值 属性 之 间 有 没有 差别 。 例 如 
比较 两 个 地 区 同时 期 的 遗址 密度 是 否 有 差异 ,以 探讨 古人 对 居住 地 环境 的 选择 是 否 有 个 
向 性 。 或 者 观察 某 种 动物 的 某 种 形态 特征 的 测量 值 在 前 后 两 期 间 是 否 发 生 了 变化 ,以 探 
讨 它 的 进化 。 考 古 研 究 中 还 可 能 磁 到 的 另 一 类 问题 是 ,检验 实际 观测 的 考古 资料 是 否 符 
合 某 种 理论 模式 。 例 如 《六 齐 说 》 记 录 东 周 时 期 铸造 青铜 剑 的 配方 ,其 锡 的 含量 应 为 
25%。 现 测量 了 一 批 东周 青铜 剑 的 锡 含 量 ,要 根据 实测 的 青铜 剑 的 锡 平 均 合 量 去 检验 
《六 齐 说 ) 的 配方 是 否 符合 实际 。 在 回答 上 述 问题 作 判 断 时 ,我 们 所 依据 的 是 , 或 者 比较 
两 个 样本 的 平均 值 X 和 元 ,或 者 是 用 样本 的 平均 值 与 理论 值 作 比 较 。 样 本 的 平均 值 
是 随机 变量 ,因而 是 有 涨 落 的 。 常 见 的 情况 是 X 和 并 不 精确 相等 ,了 与 и 也 可 能 不 绝 
对 相等 。 必 须要 确定 一 个 数值 标准 , 当 х 与 差别 ,或 者 了 与 的 差别 要 达到 多 大 , 才 可 
以 认为 这 个 差别 超出 了 随机 涨 落 的 范围 ,从 而 判断 所 研究 的 两 个 总 体 的 平均 值 (pi pa) 
之 间 , 或 者 样本 的 数学 期 望 值 与 理论 模式 的 平均 值 z 间 确 实 存在 差别 。 假 设 检验 的 目的 
就 是 要 寻求 这 样 一 个 判断 标准 。 同 时 需要 指出 ,在 假设 检验 中 ,无 论 是 作出 肯定 或 者 否 
定 的 判断 ,都 有 一 定 的 可 能 性 判断 错误 。 假 设 检验 的 过 程 在 作 判 断 时 ,应 该 能 同时 给 出 
判断 错误 的 概率 大 小 。 因 此 假设 检验 所 作 的 推断 是 带 有 统计 性 的 ,不 是 “绝对 真理 ”。 

20 世纪 60 年 代 ,过 程 主义 考古 学 派 十 分 强调 假设 检验 在 考古 研究 中 的 地 位 。 他 们 
对 古代 社会 .对 古人 的 行为 和 活动 模式 提出 各 种 假设 ,然后 用 实际 的 考古 资 料 ,甚至 设计 
新 的 考古 发 所 来 验证 所 提出 的 假设 是 否 成 立 。 他 们 认为 ,能 通过 各 种 检验 的 假设 是 最 符 
合 实际 情况 的 假设 ,是 最 强 的 假设 ,甚至 可 上 升 为 关于 古代 社会 的 理论 。 

最 后 应 说 明 ,本 章 的 讨论 仅 局 限于 大 样本 情况 下 总 体 平均 值 的 假设 检验 。 


6.1 大 样本 单 总 体 U 检验 的 原理 和 实例 


U 检验 是 指 利用 正 态 分 布 进行 的 关于 总 体 平均 值 的 假设 检验 , 单 总 体 是 指 检验 单个 
样本 的 数学 期 望 值 是 否 与 总 体 平均 值 一 致 。 本 节 将 通过 检验 《六 齐 说 ) 大 刃 之 齐 关 于 青 
铜 剑 中 锡 含量 的 配方 是 否 为 25% ,和 检验 碳 十 四 测 年 数据 与 所 测 墓 幕 主人 死亡 年 代 的 关 
系 等 两 个 实例 ,来 说 明 U 检验 的 基本 过 程 。 


6.1.1 大 刃 之 齐 锡 含 量 的 U 检验 
《 考 工 记 》 记 有 “ 金 有 六 齐 ,…… ,三 分 其 金 而 锡 居 一 , 谓 之 大 刃 之 齐 ”。 就 是 说 在 东周 
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时 期 ,青铜 剑 冶 铸 的 合金 配方 是 锡 含 量 占 25% (对 “六 齐 ” 的 另 一 种 解释 ,认为 青铜 剑 配 方 
МЕНІН 33% ,我 们 取 低 值 25%)。 华 觉 民 (1999) 统 计 并 发 表 了 43 把 东周 青铜 剑 钢 锡 
铅 的 百 分 组 成 (数据 引 自 《中 国 古 代 青 铜 技术 》 的 表 7-11)。 这 43 把 剑 锡 含量 的 平均 值 为 


X = 16.27% ,标准 差 = 2.42% (下 面 的 书写 省 略 单位 <“%”)。 现 在 要 检验 这 43 把 剑 中 
锡 含量 的 数学 期 望 值 与 理论 值 x = 25 之 间 是 否 有 显著 的 差别 ,或 者 说 这 43 把 剑 是 否 来 自 
一 个 其 锡 的 百 分 含 量 平均 值 为 25 的 总 体 , 是否 按 照 锡 含量 为 25 色 的 配方 铸造 的 。 具 体 
的 检验 过 程 分 成 四 步 。 

第 一 步 ,假设 这 43 把 青铜 剑 所 组 成 的 样本 的 数学 期 望 值 与 理论 值 一 致 , 称 为 原 假 
设 , 写 作 Н: E(X) = p = 25。 

相应 有 一 个 备 择 假设 H: E(X) „и = 25. 

第 二 步 ,寻找 一 个 可 用 以 检验 的 统计 量 。 显 然 这 个 统计 量 应 该 是 与 样本 的 平均 值 有 


关 的 。 因 为 青铜 剑 的 数量 为 43 把 , 属 大 样本 ,其 锡 含 量 的 平均 值 X 应 服从 标准 差 为 二 的 


正 态 分 布 。 如 果 原 假设 Но 成立, 那么 由 公式 (6-1) 定义 的 Z 应 该 服从 标准 型 的 正 态 分 布 。 
所 以 选择 Z 作为 检验 用 的 统计 量 。 


Z= [人 (6-1) 
Үп 
计算 Z 的 数值 
21Х-ші 116.27 -251 _ 8.63 _ 
2а а ра 5036: 23.66 
Vn V 43 


式 (6-1) 的 分 子 是 样本 平均 值 与 理论 值 u 的 差 值 。 由 于 要 检验 的 仅 是 否 存在 差 
别 ,并 不 理会 哪个 量 的 大 或 小 ,所 以 取 绝 对 值 。 这 称 为 双 侧 或 双 尾 的 检验 。 式 (6-1) 的 分 
母 是 样本 的 标准 误 。 | 

第 三 步 ,选择 检验 的 显著 性 水 平 。 显 著 性 水 平 决 定 了 接受 或 拒绝 Н ВЕНА, — M 
Ж о ЗТ 0.10, 0.05 R 0.01 等 数值 ,这 里 我 们 取 а = 0.05 ,利用 正 态 分 布 函数 表 可 以 查 
到 对 应 的 检 出 阔 ,或 称 为 判别 域 Ze = 1.96, Zs 是 确定 接受 或 拒绝 Ho 时 Z 的 取 值 范围 。 
因为 是 双 侧 的 检验 ,所 以 检 出 阐 是 Zs ,而 不 是 Zao 

第 四 步 , 作 判断 ,根据 计算 得 到 的 统计 量 2 与 检 出 限 Zs 的 大 小 作 判 断 。 如 果 Z < 
Ze ,那么 接受 原 假 加 ;反之 ,如 果 7 > Zs , 则 拒绝 原 假 H 而 接受 备 择 假设 五。 这 样 判断 
的 依据 是 :在 Но 成立 的 条 件 下 ,根据 正 态 分 布 出 现 Z > 2% 的 概率 是 a ,而 а 是 一 个 很 小 
的 值 ( 本 例 中 选择 了 а = 0.05)。 统 计 学 中 有 一 条 “小 概率 原理 ”, 认 为 在 单 次 试验 中 小 概 
率 事件 是 不 可 能 出 现 的 ,如 果 这 种 小 概率 事件 竟然 出 现 了 ,我 们 就 应 怀疑 的 合理 性 ， 
从 而 拒绝 Ho。 本 例 中 7 = 23.66 > Ze = 1.96。 因 此 根据 实测 的 43 把 青铜 剑 锡 的 百 分 仿 
量 , 在 c = 0.05 的 显著 性 水 平 上 ,拒绝 了 《 考 工 记 》 记 录 大 刃 之 齐 锡 含量 为 25% 的 说 法 。 也 
可 以 在 Но НЧ ЖЕТ ,计算 出 现 Z > 23.66 的 概率 ,在 这 个 例子 中 a < 10-2 ,如 此 小 
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的 概率 事件 在 单 次 试验 中 是 不 可 能 出 现 的 ,但 实际 情况 是 这 种 事件 出 现 了 ,从 而 只 能 拒 
绝 原 假设 Hoo 

上 面 的 判断 等 癌 于 确定 一 个 区 间 |E - и) - 2 E2- p) + әже 
否 把 坐标 轴 的 原点 包含 在 内 ,或 者 说 这 个 区 间 的 上 下 限 是 否 是 一 个 取 正 值 , 另 一 个 取 负 
值 。 如 果 答 案 是 肯定 的 ,那么 接受 名, 反之 则 拒绝 Но, Ж Н, 。 对 于 本 例 , 这 个 区 间 是 [8. 
73 +1.96 x 0.369], 或 [8.00, 9.45] ,当然 拒绝 Н. ,接受 Н, 。 这 个 判断 过 程 也 可 以 理解 为 ， 


用 样本 的 标准 误 广 作为 标准 尺度 ,去 衡量 实测 的 样本 平均 值 了 和 理论 值 /差别 1 无 - pw 
n 


1 的 大 小 ， 当 这 个 差别 小 于 标准 误 志 的 Zs 倍 时 ,就 认为 差别 更 可 能 是 随机 过 程 引起 的 , 因 
п 


而 接受 原 假设 。 如 差别 X - py | 大 于 Ze 倍 的 标准 误 时 , 则 拒绝 原 假设 Hoo 
从 上 面 的 讨论 可 以 看 到 ,接受 或 拒绝 原 假设 ,取决 于 (1)X 与 w 之 间 的 差距 ,(2) 样本 


的 标准 误 二 和 (3) 选择 的 显著 性 水 平 a。 
п 


6.1.2 用 东周 青铜 剑 的 锡 铝 含 量 之 和 检验 大 刃 之 齐 


6.1.1 节 在 讨论 东周 青铜 剑 的 锡 含 量 的 假设 检验 的 四 步 过 程 中 , 摊 杂 了 对 方法 的 说 
明和 解释 。 为 了 把 假设 检验 的 过 程 阑 述 更 为 简明 清晰 , 现 用 青铜 剑 的 锡 铅 含量 之 和 替代 
单一 的 锡 含量 ,再 进行 四 步 的 假设 检验 。 古 人 在 撰写 ( 考 工 记 》 时 ,未 知 能 否 分 辩 锡 和 铅 
是 两 种 不 同 的 金属 , 即 《 大 为 之 齐 》 中 的 “三 分 其 金 而 锡 居 一 ”, 锡 是 否 可 能 包含 了 锡 和 铝 
两 种 金属 之 和 。 学 术 界 多 数 认 为 在 战国 时 ,甚至 更 早 ,古人 已 能 分 辩 锡 和 铅 。 我 们 对 此 
并 不 质疑 ,这 里 把 锡 和 铅 的 含量 合 在 一 起 作为 六 齐 说 中 的 锡 来 对 待 ,只 是 作为 假设 检验 
的 一 个 例子 。 统 计 上 述 43 把 青铜 剑 中 锡 错 含 量 和 的 平均 值 及 其 标准 差 为 (20.40 二 
4.44)% 。 现 检验 如 下 : 

(1) 原 假 设 Ho: Е(Х) = u = 25; 备 择 假设 Н: Е(Х) = по 

(2) 选 检 验 用 统计 量 并 计算 其 数值 ， 


_1Х-ни1 120.4-251 4.56 | 
2------ - 4.44 = 0.677 = 6.73。 
Ja /8 


(3) 选择 确定 显著 性 水 平 a。 = 0.01,Ж Za = 200% = 2.58 

(4) 因为 Z = 6.73 > 2005 = 2.58, 在 а = 0.01 水平 上 ,拒绝 Ho, РН, 

检验 的 结论 是 :根据 43 把 东周 青铜 剑 化 学 组 成 的 实际 测量 结果 ,在 a = 0.01 的 显著 
性 水 平 上 ,不 能 认为 东周 青铜 剑 是 依据 一 个 锡 铝 含量 和 为 25 % 的 配方 铸 成 的 。 也 就 是 
说 ,即使 把 锡 和 铝 加 在 一 起 ,青铜 剑 中 它们 的 合 量 和 也 达 不 到 “六 齐 ” 所 要 求 的 25% 。 关 于 
“在 a = 0.01 的 显著 性 水 平 上 ”这 个 限定 词 的 含义 是 ,至 少 有 99% 的 把 握 拒 绝 原 假设 ,后 
面 我 们 还 将 对 此 作 详 细 讨论 。 既 然 拒绝 了 “东周 青 钢 剑 是 用 一 个 锡 铅 含量 和 为 25% 的 配 
方 铸 成 的 ”这 样 一 个 原 假 设 , 就 可 以 对 “东周 青铜 剑 实 际 锡 铅 含量 和 的 数学 期 望 值 ”和 
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“‘ 六 齐 ' 所 要 求 的 25% ”之 间 的 差别 作 区 间 估 计 。 在 a = 0.01 的 显著 性 水 平 上 ,这 个 区 间 
是 4.56+2.58 х 0.677 = (4.56+1.75)%。 看 来 《大 为 之 齐 》* 三 分 其 金 而 锡 居 一 ”的 记录 
离 实际 情况 甚 远 。 
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发 现 了 一 座 幕 匡 , 取 墓 主人 的 人 骨 做 碳 十 四 测 年 ,结果 为 公元 300 + 80 年 。 从 各 方面 
的 材料 分 析 ,这 很 可 能 是 某 一 位 王 的 幕 ,而 且 历史 记载 ,该 王 死 于 公元 200 年 。 现 在 检验 
碳 十 四 测 年 结果 与 该 王 已 知 的 去 世 年 代 间 有 无 显著 差异 。 

已 知 碳 十 四 年 龄 是 服从 正 态 分布 的 ,而 “80 年 "是 测 年 过 程 给 出 的 标准 差 。 因 此 可 以 
进行 И 检验 ,检验 过 程 如 下 : 

(1) Ho。 碳 十 四 年 龄 与 某 王 的 死亡 年 龄 间 无 显著 差异 , 丰 = ы; 

(2) 计算 统计 量 2:Z = H = 300 — 200 = 1.25; 

(3) 确定 显著 性 水 平 a = 0.05, ЕЕЕ Zoos = 1.96; 

(4) 因为 Z = 1.25 < Zoos = 1.96, 在 a = 0.05 的 显著 性 水 平 上 保留 Ho, 即 认为 该 
墓 的 测定 年 代 与 历史 记载 中 某 王 的 去 世 年代 没 有 矛盾 。 保 留 原 假 设 并 不 是 说 测 年 结果 
证 明了 该 幕 募 主 人 的 死亡 年 代 就 是 AD 200 年 ,而 只 是 表明 测 年 结果 与 AD200 年 间 没 有 
显著 的 差别 。 

再 次 强调 ,上 面 三 个 假设 检验 的 例子 中 所 作出 的 推论 都 是 统计 性 质 的 ,无 论 是 接受 
或 拒绝 原 假设 ,都 有 一 定 的 可 能 性 犯错 误 。 关 于 假设 检验 中 的 错误 问题 ,将 在 6.3 节 中 
进行 详细 讨论 。 


6.2 双 侧 检验 和 单 测 检验 


6.1 节 的 三 个 实例 均 是 检验 样本 的 数学 期 望 值 和 某 个 理论 值 或 已 知 值 之 间 有 没有 差 
别 , 并 不 在 乎 它们 间 谁 大 谁 小 ,因此 属于 双 侧 的 假设 检验 。 但 有 的 情况 下 要 回答 的 问题 
不 仅 是 是 否 有 差别 ,而 且 要 了 解 差 别 的 方向 ,明白 谁 大 谁 小 。 例 如 ,已 知 解放 前 我 国 北方 
男子 的 平均 身高 是 170cm, 现 随机 抽查 了 200 名 北方 男子 的 身高 ,计算 得 到 这 个 样本 的 平 
均值 为 171.1cm, 标准 差 为 6em。 问 解放 后 由 于 生活 水 平 的 改善 ,北方 男子 的 平均 身高 增 
ATU? 这 是 属于 单 侧 的 假设 检验 。 相 对 于 双 侧 的 检验 , 单 侧 检验 中 的 备 择 假设 Н, 和 
怎样 确定 判别 域 与 双 侧 检验 有 所 不 同 。 现 对 上 面 的 例题 作 检验 如 下 : 

(1) 原 假设 А: Е(Х) = п; RARR Н,:Е(Х) > ш 

这 里 的 备 择 假设 与 前 面 双 侧 检验 中 的 备 择 假设 是 有 区 别 的 。 

(2) 在 Н 成 立 条 件 下 计算 统计 量 : 
Х-н _ 11.1-170 


s 
Үп ,/200 
(3) Ж а = 0.01, ЯЖ Zoo = 2.33. 


Z= = 2.59, 
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与 双 侧 检验 不 同 之 处 在 于 ,选择 一 定 的 显著 性 水 平 “后 , 单 侧 检 验 查 Z 值 ,而 双 侧 检 
RE Ze 值 。 
(4) 因为 Z = 2.59 > Zoo = 2.33, 拒 绝 Ну, Н, E(X) > н 
因为 Н, 被 接受 ,可 以 对 解放 后 我 国 北方 成 年 男子 平均 身高 的 增长 量 作 区 间 估 计 。 计 
算 增长 量 的 点 估计 值 171.1_ 170 = 1.1em, 样 本 的 标准 误 = 一 < 一 =0.42cm。 选 定 估计 的 
V200 


置信 和 度 为 95%, а = 0.05, Ж Ze = 1.96。 计 算 1.96 x 0.42 = 0.82 em。 因 此 解放 后 我 
国 北方 男子 身高 增长 量 置 信 度 95% 的 估计 区 间 [0.28, 1.92]cm。 

单 侧 检验 在 考古 研究 中 的 应 用 也 是 很 广泛 的 , 璧 如 检验 某 种 动物 的 某 个 骨骼 指数 后 
期 是 否 比 前 期 增 大 或 减 小 ,钱币 中 的 金 银 含量 后 期 是 否 有 降低 , 即 有 无 贬值 等 ,都 需要 作 
单 侧 的 假设 检验 。 


6.3 假设 检验 中 的 两 类 错误 


前 面 介绍 了 岂 个 仿 设 检验 的 实例 ,对 原 假设 Но 有 接受 的 也 有 拒绝 的 。 但 由 于 检验 的 
统计 性 质 ,无 论 是 哪 一 种 情况 都 可 能 犯错 误 。 本 节 将 讨论 错误 的 种 类 和 犯错 误 的 概率 大 
小 。 下 面 的 表 列 出 了 在 假设 检验 中 检验 正确 或 犯错 误 的 四 种 可 能 情况 。 


实际 Ho A 实际 Ho W 
判断 接受 Ho 判断 正确 第 二 类 错误 : 纳 伪 


判断 拒绝 Ho 第 一 类 错误 : 弃 真 判断 正确 


6.3.1 第 一 类 错误 : 弃 真 错误 


当 原 假设 Но 实际 上 成 立时 ,由 于 实际 测量 数据 的 随机 涨 落 , 使 得 Z> 7а, 导致 我 们 
错误 地 拒绝 H ,这 是 弃 真 错误 ,也 称 为 第 一 类 错误 。 犯 第 一 类 错误 的 概率 是 可 以 预 置 的 ， 
当选 定 显著 性 水 平 为 a 时 ,实际 上 已 经 预 置 了 犯 第 一 类 错误 的 概率 不 大 于 a。 另外 也 可 以 
根据 Z 值 的 大 小 ,计算 犯 第 一 类 错误 的 概率 ,例如 6.1.2 节 检验 东周 青铜 剑 的 锡 铝 含 量 和 
是 否 按 “六 齐 ” 配方 时 , 曾 计 算得 到 7 = 6.73。 利用 Excel 软件 的 NORMDIST 函数 可 以 计算 
得 到 , ТЕ Н, 为 真 的 条 件 下 ,2Z 达到 6.73 的 概率 小 于 1.7 x 10-1, 这 就 是 说 我 们 拒绝 Ho 时 
犯 弃 真 错误 的 概率 小 于 1.7 x 10 1 , 犯 弃 真 错误 的 概率 极 小 极 小 ,几乎 为 不 可 能 。 当 然 在 
6.1.1 节 检验 东周 青铜 剑 纯 锡 含量 是 否 按 “六 齐 ” 配 方 时 , 犯 弃 真 错误 的 概率 就 更 小 了 。 


6.3.2 第 二 类 错误 : 纳 伪 错 误 | 


当 原 假设 Но 实际 上 不 成 立时 ,由 于 实际 测量 数据 的 随机 涨 落 ,使 得 Z< Ze, РВИ 
错误 地 接受 Ho, 从 而 犯 纳 伪 的 错误 ,也 称 第 二 类 错误 。 纳 伪 错 误 的 概率 经 常用 8 来 表示 ， 
计算 犯 纳 伪 错 误 的 概率 比 计算 弃 真 错误 的 概率 要 复杂 ,而 且 它 与 三 个 因素 有 关 , 包 括 Ho 
偏离 实际 有 多 大 (样本 的 数学 期 望 值 与 理论 值 的 实际 差别 大 小 ), 样 本 标准 误 的 大 小 ,以 
及 显著 性 水 平 的 选择 。 
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下 面 用 6.1.3 节 中 碳 十 四 测量 “可 能 是 某 个 已 知 王 昔 ”年代 的 例子 ,计算 纳 伪 错误 概 
率 的 大 小 ,并 分 析 纳 伪 概 率 和 上 述 三 个 因素 间 的 关系 。 

在 这 个 例子 中 已 知 碳 十 四 测 年 的 标准 差 为 80 年 ,要 检验 的 是 墓 主人 是 否 死 于 公元 
200 年 。 下 面 计算 这 个 例子 在 不 同情 况 下 犯 纳 伪 错 误 的 概率 。 如 果 定 显著 性 水 平 a = 
0.05, 那么 不 管 幕 主人 实际 死亡 的 年 代 , 只 要 实际 测 年 结果 在 公元 200 + 1.96 x 80 年 间隔 
中 , 即 在 区 间 [44,356] 中 ,就 应 接受 “ 墓 主人 死 于 公元 200 年 "的 假设 ,从 而 可 能 犯 纳 伪 的 
错误 。 假 设 所 测 幕 的 幕 主人 实际 上 死 于 公元 240 年 ,计算 对 该 墓 的 测 年 结果 落 在 [44， 


356] 区 间 的 概率 。 
ЖЕКТЕ. 
Z = = 20 222.45, Z= 356-20 = 1.45 
犯 纳 伪 错 误 的 概率 为 : 
Ф(2;) - (Z) = Ф(2,) – (1- Ф(- Д,)) = 0.9265 – (1 - 0.9926) = 0.9191 


对 于 墓 主 人 死 于 公元 240 ЕЕ, ФИЯ Н) Ж ЕЛ 91.9 Ф. 

下 面 分 别 改变 墓 主人 实际 死亡 年 代 、 显 著 性 水 平和 样本 的 标准 误 等 三 个 因素 ,观察 
它们 对 犯 纳 伪 错误 概率 的 影响 。 

(1) 犯 纳 伪 错 误 的 概率 与 实际 的 偏差 有 关 。 上 面 计算 了 墓 主人 实际 死亡 年 代 与 “被 
检验 年 代 ”" 相 差 40 年 时 纳 伪 的 概率 。 如 果 墓 主人 的 实际 死亡 年 代 相 应 为 公元 280 年 和 公 
元 360 年 , 即 与 “被 检验 年 代 ” 相 差 80 年 和 160 年 ,那么 纳 伪 的 概率 有 多 大 呢 。 用 同样 的 
ЖЕККЕН 7,,7, 和 犯 纳 伪 错 误 的 概率 ,相应 为 83 多 和 48 多 。 可 以 看 到 , 纳 伪 
概率 的 大 小 与 实际 偏离 的 程度 是 有 关 的 , 慕 主人 实际 死亡 年 代 与 “被 检验 的 年 代 值 " 越 接 
近 , 犯 纳 伪 错误 的 概率 越 大 。 

(2) 犯 纳 伪 错误 的 概率 与 选择 的 显著 性 水 平 有 关 。 依 旧 假 设 墓 主人 实际 死 于 公元 
240 年 ,但 把 显著 性 水 平 改定 为 a = 0.10, 则 接受 区 间 变 为 200 + 1.65 x 80 年 , 即 [68,332] 


ЗЕТ д, = 46-29. - 2.15 和 л, = 32200. 1.15。 纳 伪 概 率 有 = 
Ф(1.15) - (1 - Ф(2.15)) = 0.859。 我 们 记得 , 取 a = 0.05 时 , 犯 纳 伪 错误 的 概率 是 8 = 
0.919。 考 虑 到 显著 性 水 平 的 选择 等 同 于 确定 犯 弃 真 错误 的 概率 ,对 应 于 两 个 a 值得 到 两 
个 不 同 的 纳 伪 概 率 8 值 , 当 犯 弃 真 错误 的 概率 从 5% 增高 到 10% 时 , 犯 纳 伪 错 误 的 概率 从 
92% 降低 到 86% 。 这 表明 犯 第 一 种 和 第 二 种 错误 的 概率 是 相互 牵制 的 ,试图 降低 犯 一 种 
错误 的 概率 ,必然 以 增加 犯 另 一 种 错误 的 概率 为 代价 。 在 测量 误差 和 测量 次 数 固定 的 条 
件 下 ,不 能 要 求 同 时 降低 弃 真 和 纳 伪 的 概率 。 

(3) 犯 纳 伪 错 误 的 概率 与 标准 误 的 大 小 有 关 。 仍 假设 慕 主人 实际 死 于 公元 前 240 
年 , 原 假设 和 显著 性 水 平 a = 0.05 的 条 件 也 不 变 。 但 是 碳 十 四 测 年 重复 测量 了 4 次 ,4 次 
重复 测量 导致 测 年 结果 的 标准 误差 减 小 一 半 , 达 40 年。 这 样 接受 区 间 也 相应 缩小 为 200 


+1.96x40 年 , 即 [122,278] 年 ,相应 的 7, = 122 — 240 __ 


47, 计算 得 到 纳 伪 的 概率 为 0.62, 小 于 标准 误差 在 80 年 时 的 纳 伪 概率 0.919。 增 加 测量 
的 重复 次 数 , 即 增 大 样本 的 容量 n ,可 以 在 弃 真 概率 不 变 的 条 件 下 ,降低 纳 伪 的 概率 。 但 
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是 增加 观测 的 数据 量 , 是 以 增加 研究 工作 的 经 费 和 延长 研究 的 时 间 周 期 为 代价 的 ,特别 
是 在 考古 研究 中 观测 数据 的 数量 是 受到 客观 条 件 限 制 的 。 

在 实际 的 假设 检验 中 应 该 怎样 来 调配 a 和 8 的 数值 呢 ? 这 与 实际 研究 的 问题 有 关 。 一 
般 说 来 , 原 假设 中 的 y 是 某 种 理论 值 ,或 者 是 总 结 了 大 量 研究 结果 而 归纳 得 出 的 ,我 们 不 


希望 原 假设 Ho:E(X) = и 轻易 地 被 否定 ,所 以 犯 弃 真 错误 的 概率 一 般 是 选 得 很 低 的 ,如 
选择 a = 0.1.0.05 和 0.01 等 。 更 何况 接受 原 假 设 仅仅 表明 ,没有 足够 的 证 据 去 否定 它 ,而 
并 不 是 证 明了 它 的 正确 和 成 立 。 犯 纳 伪 错误 概率 的 选择 取决 于 实际 研究 课题 对 偏离 所 能 
容忍 的 程度 。 如 果 样 本 的 数学 期 望 与 理论 值 р 有 差别 ,但 差别 并 不 大 ,这 时 纳 伪 的 概率 8 
可 能 会 相当 大 。 但 这 也 无 妨 大 局 ,很 小 的 差别 本 来 就 接近 于 没有 差别 , 纳 伪 概率 大 些 是 可 
以 容忍 的 。 当 然 什么 是 “差别 并 不 大 ”也 是 因 事 而 论 的 。 在 工厂 产品 的 抽样 检验 中 ,如果 生 
产 的 是 一 般 民用 产品 ,可 以 容忍 产品 实际 达到 的 指标 与 设计 指标 y 有 一 定 的 差异 , 即 可 
以 容忍 В 值 大 些 , 因 而 可 以 把 产品 检验 中 犯 弃 真 错误 的 概率 定 得 低 些 , 即 显 著 性 水 平定 
得 较 高 ( 即 a 很 小 ) ,以 免 抽 样 检验 结果 稍 有 偏离 设计 指标 而 将 整个 一 批 产品 当 作 废品 处 
理 掉 , 造 成 损失 。 但 是 如 果 生 产 的 是 军工 产品 或 药品 ,就 不 能 容许 纳 伪 概率 8 值 很 大 , 即 
使 抽样 检验 结果 反映 产品 实际 达到 的 指标 略 有 偏离 设计 值 ,也 不 应 作为 合格 产品 出 厂 。 
抽样 检验 军工 产品 或 药品 时 ,应 该 增 大 被 检测 样本 的 容量 ,同时 显著 性 水 平 相应 要 定 得 
低 些 , 即 а 值 不 应 很 小 。 


6.4 大 样本 情况 下 两 个 总 体 平 均值 的 一 致 性 检验 


本 章 前 面 讨论 的 是 单个 样本 的 数学 期 望 值 和 预知 值 或 理论 值 的 比较 ,本 节 要 讨论 两 
个 考古 总 体 平均 值 的 比较 。 在 考古 研究 中 是 经 常 要 处 理 两 个 总 体 平均 值 的 比较 。 例 如 
比较 前 后 两 期 聚落 的 面积 总 体 上 有 没有 变化 ,钱币 有 没有 贬值 ,两 个 地 点 动物 骨骼 的 某 
种 数量 特征 是 否 一 致 ,同一 草地 男女 墓葬 随葬 品 的 平均 数目 是 否 相等 ,等 等 。 

“大 样本 "要 求 每 个 样本 的 容量 n 都 大 于 30。6.3 中 讨论 的 大 样本 单 总 体 平均 值 假 设 
检验 的 方法 同样 可 以 应 用 于 大 样本 两 总 体 平均 值 的 一 致 性 检验 ,因为 每 个 样本 的 平均 值 


Х.Х, 都 服从 正 态 分 布 。 但 是 需要 注意 两 个 特殊 点 (1) 怎 样 计算 统计 量 (X - X) 的 标 
准 差 , 和 (2) 两 个 样本 的 个 体 间 是 独立 的 还 是 相关 的 。 


6.41 两 个 独立 样本 间 总 体 平 均值 的 一 致 性 检验 :以 钱币 焉 值 等 为 例 


独立 样本 区 别 于 6.4.2 小节 将 讨论 的 配对 样本 ,独立 样本 中 每 个 样本 中 实体 的 取 值 
与 另 一 样本 中 的 实体 是 无 关 的 。 下 面 通过 两 个 实例 来 讨论 两 个 独立 样本 间 总 体 平均 值 
的 比较 。 

例 一 ”收集 并 测量 一 批 带 有 两 位 皇帝 名 号 的 铜币 的 重量 。 统 计 了 铜币 的 数量 ,它们 
的 平均 重量 等 数据 并 记录 于 下 表 。 已 知 两 位 皇帝 是 前 后 相继 的 。 希 望 分 析 了 解 在 第 二 
位 皇帝 即位 后 ,铜币 和 钴 造 的 设计 重量 是 否 有 所 降低 , 即 是 否 发 生 了 贬值 。 
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(1) 假设 Ho: wi = 42( 没 有 发 生 贬 值 )， 备 择 假设 Н u2 < yi( 发 生 了 贬值 )。 


(2) 先 计算 统计 量 D „ = (Xi - Х,) 的 标准 差 。 两 个 独立 的 随机 变量 的 差 值 的 标准 


差 , 等 于 它们 各 自 标准 差 的 平方 和 的 开 方 。 


_ = = | 一 + 一 6-2 
ӛр; а-а) т + п; ( ) 
计算 如 下 : 
0.322 0.242 
s = + = 0.021 
(8-2) 384 377 
再 计算 统计 量 
X- X 4.85-4.79 0.06 
=; = 7703001 50021: 287 
(х,-Х,) 


这 个 统计 量 也 是 服从 标准 型 的 正 态 分 布 的 。 

(3) .因为 探讨 的 问题 是 否 曾 发 生 了 铜钱 币 的 贬值 , 属 单 侧 检 验 。 

选择 a = 0.01, ЯҒ Zoo = 2.575 

(4) Z = 2.875 > Zoo = 2.575 

拒绝 原 假设 Ho: py = 2，, 接受 备 择 假设 Hl:w, < Aio 我 们 有 99% 以 上 的 把 握 认 为 第 
二 位 皇帝 时 ,铜钱 币 的 铸造 是 “ 缺 斤 短 两 ”的 。 既 然 接受 了 备 择 假设 Hi: < Ai ,就 可 以 进 
一 步 估 计 铜 币 的 重量 减轻 了 多 少 , 它 应 为 (0.06 + Ла x 0.021)( 克 ) ,该 区 间 估计 的 置信 度 
为 (1 - a), 如 果 取 a = 0.05, 则 贬值 的 区 间 估 计 为 0.02 一 0.10 克 。 也 可 以 用 贬值 的 百分率 


来 表示 , 即 第 二 位 皇帝 时 ,铜钱 币 铸造 的 设计 重量 降低 了 约 2 -= 1.2%。 


与 6.1 节 单 总 体 平均 值 的 假设 检验 相 比较 ,这 里 新 的 内 容 是 怎样 计算 两 个 随机 变量 
的 差 值 的 标准 差 和 计算 统计 量 Z 是 用 1 XA- 1 替代 | 对 -jy1。 

例 二 ” 圳 靖 等 (Yuan,2002) 测 量 统计 了 山东 半岛 北岸 距 今 约 5500 年 的 莲 莱 县 大 仲 家 
贝 丘 遗址 第 3.4 层 , 称 之 为 Venerupis variegate 种 的 贝壳 的 宽度 。 下 表 列 出 有 关 的 描述 性 
统计 的 数据 : 


样本 容量 (n) | NEFSE X (mm) | 标准 差 s (mm) | 标准 误 (mm) 
| 


KERAHE 27.03 0.374 
KERGE ЕТ 0.36 


第 一 步 , 假设 两 个 地 层 中 贝壳 的 平均 宽度 未 发 生变 化 , 即 提 出 原 假设 Ho: ECX) = 
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Е(Х,); 


第 二 步 ,计算 统计 量 2 = 02201, 
(X-X) 


为 此 先 计算 两 层 贝壳 平均 宽度 差 值 (Xi - X) 的 标准 差 


2 2 
5 =,/ 1 + 22 — 0.3740 + 0.369 = 0.525 
(Х,-Х,) пр т 
IX- Xal 31.85 _ 27.03 
= а КЗЫ = 9.18 
(9-х) 


在 pa = Hi 成 立 的 假设 条 件 下 ,2 服从 标准 型 正 态 分 布 ,从 而 Z 达到 9.18 的 概率 几 
乎 为 零 。 因 此 可 以 以 极 大 的 把 握 作 判断 ,两 层 贝 这 的 平均 宽度 是 有 明显 差别 的 ,第 4 层 贝 
壳 的 宽度 明显 比 第 3 层 贝壳 秦 。 在 这 项 研究 中 ,没有 必要 去 估计 两 层 贝壳 的 宽度 的 差 值 ， 
这 是 没有 多 大 的 实际 意义 的 。 人 们 感 兴趣 为 什么 从 第 3 层 往 上 到 第 4 层 总 体 来 说 贝壳 的 
个 体 变 小 了 。 两 层 地 层 的 时 代 仅 相隔 二 三 百年 , 因此 袁 靖 (Yuan,2002) 等 认为 不 是 气候 的 
变化 导致 的 物种 形态 的 变化 ,而 是 人 类 食用 软体 动物 所 造成 的 后 果 。 人 类 的 大 量 食用 ， 
特别 是 优先 挑食 个 体 大 的 贝壳 ,缩短 了 贝壳 的 期 望 年 龄 。 贝 壳 体态 的 缩小 是 人 类 “使 用 
压力 "的 后 果 。 

与 例 一 相 比 , 例 二 的 推论 和 书写 形式 简化 了 。 计算 了 统计 量 Z 后 立即 可 以 作 判 断 , 因 
为 统计 量 Z 的 数值 太 大 了 。 只 要 | Z 1 > 3.3, 就 可 以 安全 地 拒绝 两 个 样本 的 数学 期 望 值 相 
等 的 原 假设 ,因为 这 时 犯 弃 真 错误 的 概率 已 小 于 0.001 To 


6.4.2 ”配对 实体 的 大 样本 间 总 体 平均 值 的 一 致 性 检验 


前 面 讨论 了 两 期 铜钱 币 的 贬值 ,大 仲 家 遗址 两 层 地 层 中 贝壳 的 个 体 尺 寸 的 变化 ,所 
涉及 的 都 是 相互 独立 的 随机 变量 。 但 是 有 的 情况 下 ,两 个 样本 的 成 员 之 间 相 互 是 有 关联 
的 。 例 如 为 了 研究 两 代 男子 身高 间 的 变化 ,抽取 了 对 父子 ,然后 比较 父亲 组 和 儿子 组 的 
平均 身高 。 这 里 两 组 样本 的 容量 是 相等 的 ,都 是 ,而 且 它 们 的 成 员 间 是 配对 的 。 配 对 样本 
的 例子 在 实际 生活 中 是 很 多 的 。 例 如 同一 批 样品 ,每 个 样品 分 成 两 份 ,分 别 用 两 种 不 同 的 
方法 测量 某 个 指标 ,比较 两 种 测量 方法 的 结果 之 间 是 否 存在 系统 的 差异 。 在 教育 学 研究 
中 观察 一 批 学 生 在 经 过 某 种 培训 后 的 进步 ,在 考古 研究 中 用 不 同 的 方法 测量 同一 批 陶 片 
或 青铜 器 的 元 素 含量 等 ,所 得 的 观测 结果 都 是 配对 样本 。 判 断 两 个 配对 样本 某 个 定量 属 
性 平均 值 是 否 有 差别 ,只 要 п > 30, 也 是 用 我 们 已 熟悉 的 U0U 检 验方 法 ,但 是 计算 配对 样本 
间 平 均值 差别 的 标准 差 的 公式 与 6.4.1 节 中 独立 样本 的 情况 (公式 ( 6-2)) 是 不 一 样 的 。 

公式 (6-3) 给 出 配对 样本 间 平 均值 差别 的 标准 差 计算 方法 : 

s? + 52 — 2г)у5155 
іре = тл = J = (6-3) 


X 


与 公式 (6-2) 相 比 , 根 号 下 多 出 了 R 项 ,其 中 ry 是 X 与 х, ZER R 
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系数 。 第 九 章 将 介绍 什么 是 皮尔 逊 相关 系数 ,这 里 仅 指出 对 于 完全 正 相关 的 样本 ra = 1; 
而 对 于 独立 样本 ra = 0, 公 式 (6-3) 也 就 还 原 到 独立 样本 的 公式 (6-2)。 

配对 样本 平均 值 差别 假设 检验 与 6.4.1 中 两 个 独立 样本 平均 值 差别 假设 检验 相 比 ， 
除 样本 间 平 均值 差别 的 标准 差 的 计算 方法 不 同 ,分 别 用 公式 (6-3) 和 (6-2) 外 ,其 他 步骤 
是 相同 的 ,4 因此 这 里 不 再 重复 。 我 们 将 在 第 七 章 “ 小 样本 总 体 平均 值 的 一 致 性 检验 ”中 , 介 
绍 配对 样本 平均 值 差别 假设 检验 的 具体 例子 。 


第 七 章 ”小 样本 和 多 样本 总 体 平均 值 的 假设 检验 


第 六 章 讨论 了 大 样本 (样本 容量 n > 30) 情况 下 总 体 平 均值 的 假设 检验 ,本 章 将 讨论 
п < 30 的 小 样本 的 情况 ,在 根据 两 个 样本 进行 两 总 体 平均 值 的 一 致 性 检验 时 ,如 果 其 中 
一 个 为 小 样本 ,也 要 作为 小 样本 来 处 理 。 小 样本 的 基本 特点 是 其 平均 值 和 平均 值 的 差 ,一 
般 情况 下 不 服从 正 态 分 布 ,而 是 服从 分布。 进行 小 样本 总 体 平 均值 的 假设 检验 ,需要 考 
虑 原始 观测 数据 是 否 服从 正 态 分 布 ,原始 观测 数据 所 属 总 体 的 方差 2? 是 否 已 知 ,两 组 观 
测 数据 所 属 总 体 的 方差 是 否 相 等 等 一 系列 前 提 条 件 。 因 此 比 大 样本 情况 下 总 体 平 均值 的 
假设 检验 要 复杂 。 希 望 读 者 注意 这 些 前 提 条 件 , 注意 计算 两 个 小 样本 的 平均 值 差 的 标准 
差 的 公式 。 


71 单 总 体 平均 值 的 假设 检验 


首先 要 假设 原始 观测 数据 抽样 自 正 态 分 布 总 体 的 样本 。 下 面 再 分 成 两 种 不 同 的 情 
况 作 讨论 。 
711 总 体 的 方差 名 已 知 

检验 的 目的 与 第 六 章 的 情况 相似 ,需要 检验 样本 的 数学 期 望 值 E(X) 与 总 体 平 均值 


六 之 间 有 没有 显著 的 差异 。 如 果 总 体 方差 oz 已 知 ,那么 统计 量 Z = ZE = N(0,1) 依然 
б п 


是 服从 标准 型 的 正 态 分 布 的 。 因 此 其 检验 步骤 和 第 六 章 大 样本 的 情况 是 类 似 的 ,这 里 不 
再 重复 论述 ,但 是 需要 指出 ,在 考古 学 研究 中 ,总 体 的 方差 o? 已 知 的 样本 是 不 多 见 的 。 


71.2 ”总体 的 方差 Ж 


如 果 总 体 方差 ?未 知 ,那么 对 于 小 样本 ,统计 量 7 = ZSE ЖЕЛЕ, ША, 
8 п 


自由 度 为 (n -1) 的 :分布 , 式 中 ;为 样本 的 标准 差 ,n 为 样本 容量 .下 面 我 们 以 检验 (六 齐 
说 》 中 关于 “…… 六 分 其 金 而 锡 居 一 , 亩 之 钟 易 之 齐 ” 为 例 ,来 说 明 小 样本 总 体 平 均值 的 
检验 过 程 。 根 据 ( 六 齐 说 》, 东 周 时 青铜 钟 易 铸造 配方 中 锡 的 设计 含量 应 为 14.3 % 。 华 觉 民 
(1999) 统计 的 东周 青铜 钟 易 的 锡 铅 组 成 列 于 表 7-10 

表 7-1 东周 青铜 钟 贞 的 锡 铅 平均 食量 和 标准 差 


锡 平均 含量 及 标准 差 s% 锡 铅 和 的 平均 含量 和 及 标准 差 3% 
14.72 + 1.75 17.60 + 4.55 
15.54 + 2.40 20.54 + 2.77 
15.17+2.14 19.24 + 3.87 
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现 检验 钟 铃 的 锡 平 均 含量 是 否 符合 (六 齐 说 ?规定 的 14.3%. 


(1) 提出 原 假 设 , Ho: E(X) = и = 14.3,Н\у:Е(Х) „ 14.3%. 
(2) 计算 统计 量 
_Х-= 7-1 
Т 5/' Мп ) 
14.72 - 14.3 


T = 一 一 ~ 一 ~- > 0.782, 
1.75/ vil 


(3) Ж a = 0.05, 利用 EXCEL 软件 的 上 函数 计算 判断 闻 , То os = TINV(0.05,10) = 
2.23。 

(4) 因为 了 = 0.782 < Toos = 2.23, 接受 Н; E(X) = 14.3%, 

检验 结论 为 :在 0.05 的 显著 性 水 平 上 ,东周 青铜 钟 铃 等 响 器 的 实测 平均 锡 含 量 符 合 
《六 齐 说 》 的 配方 。 

对 于 由 14 件 鼎 等 青铜 容器 组 成 的 样本 ,可 用 相同 的 方法 ,计算 得 到 Т = 2.17, 查 
То. = ТІМУ(0.05,13)- 2.16。 因 为 了 = 2.17 > To ws = 2.16, 所 以 在 0.05 的 显著 性 水 
平 上 ,认为 东周 青铜 易 等 容器 实测 的 锡 平 均 含量 与 4 六 齐 说 》 的 配方 有 差异 。 如 果 取 a = 
0.02, 则 Too = 3.01 > Т = 2.17, 那么 在 0.02 的 显著 性 水 平 上 ,可 以 认为 东周 青铜 车 容 
器 实测 的 锡 平 均 含 量 与 4 六 齐 说 》 的 配方 不 矛盾 。 这 里 我 们 再 次 看 到 假设 检验 的 结论 可 能 
会 依赖 于 显著 性 水 平 的 选取 ,对 于 14 件 青铜 容器 的 锡 平均 含量 , 当 取 a = 0.05 时 ,拒绝 
《六 齐 说 》 的 原 假 设 ,而 取 a = 0.02 时 ,接受 《六 齐 说 》 的 原 假设 。 出 现 这 种 看 似 矛 盾 的 情 
况 , 是 因为 实测 的 鼎 等 容器 的 锡 平 均 含 量 与 4 六 齐 说 》 的 设计 值 之 间 的 差异 对 应 于 样本 的 
标准 误差 别 不 大 所 致 ,前 者 为 (15.54 - 14.3) = 1.24, 而 标准 误 为 2.4/ V14 = 0.64, 


72 独立 样本 两 个 总 体 平均 值 一 致 性 的 假设 检验 


本 节 的 讨论 要 求 , 两 个 样本 的 原始 观测 数据 分 别 来 自 正 态 分 布 总 体 N oi) 和 
N(p2,03)。 在 本 节 的 后 面 将 介绍 怎样 粗略 地 验证 正 态 分 布 前 提 是 否 成 立 。 区 别 于 总 体 方 
差 of 和 о; 是 否 已 知 和 是 否 相 等 ,检验 所 使 用 的 统计 量 也 是 不 同 的 。 


721 ARH Ë h M hA 


这 种 情况 下 统计 量 Dz = X, - Х, MESAN N| (a - po) ,| Z 2) , 式 中 的 
m 和 m 分 别 为 两 个 样本 的 容量 。 可 以 将 DF 标准 化 后 得 到 Z ,然后 进行 我 们 已 熟悉 的 U 
检验 。 但 是 正如 前 面 已 据 到 ,对 于 考古 样本 总 体 方差 经 常 是 未 知 的 ,我 们 不 准备 列举 实例 


对 此 作 详 细 的 讨论 。 
7.2.2 AEDE AM gka, (8 = 0 
如 果 满 足 а о, ПИ РОН ЕП ЕН) 
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(ni — 1)s? (ж, — 1) 2 
° = ta Dlm -D + a D D (7-2) 
而 统计 量 Dx = X- 六 的 方差 为 
sb- = ЖІ + 5) (7-3) 
将 式 (7-2) 代 人 式 (7-3) ,得 到 


2 _ (т — 1)91 (љо – 108 1 1 
5 7 (ce + te (+2) 
_ Сао = ж (љо -1)52 ni + пә 
(ni + m - 2) пуп) (7-4) 


这 时 了 = ы. Xi- A уана, + n2 -2) 的 上 分 布 。o 下 面 通过 3 个 具体 的 例子 


来 说 明 小 样本 情况 下 两 总 体 平均 值 一 致 性 的 假设 检验 这 里 假定 小 样本 两 总 体 平均 值 一 
致 性 ;检验 的 前 提 条 件 是 满足 的 。 


实例 一 已 知 发 据 了 一 个 墓地 。 摹 主人 性 别 和 随 莫 品 的 数量 统计 如 表 7-2 所 示 : 
表 7-2 ” 某 昔 地 的 幕 主人 性 别 和 随 其 品 数量 的 统计 表 


| зя 随葬 品 数量 
АТ Ha 


39,54,59,62,46,53,52,41 
жб ЧӨ БЕ ЕЖА Б ЕЮ Ит: 
(1) ВВЕР ЖЫ }ЕЗЇЖ Ж Но: Е(Х,) = E(X). 


(2) 计 算 统 计量 
- т. (1-5) 
8р- 
为 此 先 计 算 
(тү —1)з1_. (ns ~ 1) 82 7 x 8.17 + 10 х 6.042 
б=т туу (m1) tUm 1) +m 1) 7 7+10 = 48.94 


(3) 选 定 a=0.02, 查 T 表 Too(df = 17) = 2.57. ' 

(4) 因为 了 = 2.80 > Too = 2.57, 在 a = 0.02 水 平 上 ,拒绝 原 假设 ,认为 随 莫 品 的 
多 寡 与 蔓 主 人 的 人 性别 有关 ,男性 幕 莫 的 随 磊 上 品 平均 数量 多 。 

实例 二 ”检验 东周 青铜 剑 和 青铜 戈 戟 的 平均 锡 含 量 之 差 ,是否 与 4 六 齐 说 》 的 设计 值 
一 致 。 表 7-3 列 出 有 关 数 据 ( 数 据 引 自 华 党 明 [1999]) 。 
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表 7-3 东周 青铜 剑 和 青铜 芯 戟 的 实测 平均 锡 含 量 和 《六 齐 说 》 记 录 的 锡 含 量 表 


器 物 名 称 数量 实测 平均 锡 含 量 % ЕЗ Ф ХӘН Е % 
ЖЭ] 43 16.27 2.42 25 
FARR 2.29 20 


首先 利用 式 (7-5) 计 算 两 类 器 物 锡 含量 平均 值 差 的 方差 sh: 


2. „_(-1)+2.422+(15-1)х2.29 43+15 0513 
D7 5 (43 + 15 - 2) 43х15 5 7 


зр. = 0.716 
检验 过 程 如 下 : 
根据 《六 齐 说 》 两 种 青铜 器 锡 含 量 设计 值 之 差 应 为 25 - 20 = 5。 因 此 :(1) 提 出 原 假 设 
Но: E(X1) - Е(Х,) -5 = 0, 备 择 假设 Н,:Е(Х) — Е(Х,) -5ж0. 
(2) 计算 统计 量 


2-0-5 16.27-15.99-5 
5 * 0.716 

(3) 既 然 7 的 绝对 值 大 于 6, 可 以 以 非常 高 的 置信 度 拒 绝 原 假设 。《 六 齐 说 ) 关 于 东周 
青铜 剑 比 青铜 戈 戟 的 锡 平均 含量 高 5 % 的 记录 不 能 得 到 实际 测量 数据 的 支持 。 

下 面 我 们 尝试 检验 “东周 青铜 剑 与 青铜 戈 戴 的 锡 平 均 含 量 没有 差别 "的 假设 : 


Т = – 6.59, 


(1) :Е(Х)) = Е(Х,), Н\:Е(Хү) е Е(Х,) 
(2) 统计 量 
X,- X, 16.27-15.99 
T=- = one =0.39 


(3) Жа =0.05, Ж ABEX 43 +15- 2 = 56 H Т RAK , Н EXCEL 软件 的 TINV 
函数 ,得 Тоо» = 2.003 。 

(4) 因为 了 = 0.39 < Toos = 2.003, 接 受 Ho: Е(Х,) = Е(Х,) , 即 实际 的 测量 数据 
未 显示 这 两 种 青铜 器 物 的 锡 平均 含量 有 显著 的 差别 ,因此 不 支持 4 六 齐 说 》 关 于 青铜 戈 载 
与 青铜 剑 锡 合 量 配方 有 5% 差别 的 记录 。 

实例 三 ” 李 晓 崔 (2000) 测 量 了 相当 数量 云南 古代 铜鼓 的 铅 同 位 素 比 值 2 рь/29рь 
和 ?208Pb/2x6Pb。 已 知 对 于 铅 含量 高 于 2% ~ 3% 的 青铜 器 ,可 以 利用 这 两 个 比值 来 探索 青 
铜 器 中 铅 的 矿 源 。 下 表 列 出 云南 最 早 的 两 种 类 型 ,万 家 坝 弄 和 石 寨 山 型 铜鼓 的 铝 同位 素 
比值 的 平均 值 和 标准 差 。 这 两 类 铜鼓 是 在 同一 地 区 发 现 的 。 

表 7-4 云南 万 家 坝 型 和 石 守 山 型 铜鼓 的 铅 同位 来 比值 数据 表 
207pp/2%6Pb 的 2Pb/2%Pb 的 28pb/2%6Pb 的 208 рр,,/2%6 ру, 的 


sı = 0.01508 51 = 0.01457 


s2 = 0.00734 Х, = 2.1013 52 - 0.01168 
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李 晓 崔 首先 检验 并 接受 了 铅 同 位 素 比 值 的 测量 结果 服从 正 态 分 布 的 假设 ,而 且 对 于 
每 一 组 同位 素 比 值 ,两 类 铜鼓 测量 的 方差 未 见 明显 差别 , 即 ci = 叶 , 因 此 可 以 进行 上 检 
验 ,检验 这 两 种 类 型 的 铜鼓 的 2 组 铅 同位 素 比 值 是 否 一 致 。 利 用 公式 (7-4) 和 (7-5) ,对 
于 六 Pb/%Pb, 计 算得 到 Т = 0.3925 ;而 对 于 3Pb/2%Pb, Т = 0.2904 。 查 自由 度 为 9 的 t 
函数 表 , 取 显著 性 水 平 a = 0.05, 得 到 To.0s( df = 9) = 2.262。 因此 ,可 以 以 很 高 的 置信 和 度 
判断 ,万 家 坝 型 和 石 寨 山 型 铜鼓 的 2 组 铝 同位 素 比 值 之 间 未 见 明显 差异 ,这 两 种 类 型 的 
铜鼓 应 该 有 相同 的 铝 矿 源 。 李 晓 岭 对 我 国 西南 地 区 多 种 类 型 铜鼓 和 西南 地 区 一 系列 铜 、 
铅 矿 料 的 铅 同位 素 比 值 的 测量 数据 做 了 :i 检验 ,得 出 我 国 西南 地 区 古代 铜鼓 主要 使 用 当 
地 矿 料 铸造 的 推论 。 

对 于 两 总 体 的 方差 оң а 不一致 的 情况 ,可 使 用 7.6 讨论 的 非 参数 假设 检验 。 


7.3 配对 样本 总 体 平 均值 一 致 性 的 检验 


两 个 配对 样本 是 指 两 个 样本 的 成 员 之 间 是 两 两 相互 配对 的 ,例如 研究 两 代 男子 身高 
间 的 变化 ,抽取 了 n 对 父子 ,父亲 组 和 儿子 组 两 组 样本 的 容量 是 相等 的 ,都 是 n ,而且 数 据 
对 之 间 是 相关 的 。 因 此 配对 样本 又 称 为 相关 样本 。 第 六 章 曾 提 到 ,大 样本 条 件 下 对 于 两 个 
配对 样本 ,可 以 用 U 检验 方法 来 检验 它们 的 总 体 平均 值 的 一 致 性 ,并 给 出 了 计算 两 个 配 
对 样本 平均 值 差 的 标准 差 的 公式 


sp = s_ = / (51+ 52 – 2гуу5152)/П (6-3) 
(Х|-Х,) 
式 中 的 ra 是 A 与 Х, 之 间 的 皮尔 逊 相关 系数 .为 了 避免 计算 相关 系数 ,这 里 介绍 另外 一 
种 检验 配对 样本 平均 值 一 致 性 的 方法 。 两 种 方法 是 等 效 的 。 

因为 两 个 样本 中 的 元 素 或 实体 都 是 成 对 的 ,可 以 计算 每 一 对 观测 数值 之 差 

D; = Хы - Хә; (7-6) 

式 中 的 第 二 个 下 标 i 是 样本 中 配对 实体 的 编号 ,i = 1,2,...n, 而 n 是 样本 的 容 

量 。 下 一 步 计 算 诸 D, 的 平均 值 D 和 标准 差 so MPH D 的 标准 差 为 。 = sp/Vn。 如 果 
р 


Xi; ЖП Х,, 服从 正 态 分 布 (这 里 不 一 定 要 求 Х|; MX 的 方差 相等 ) ,那么 统计 量 


р 


7-7 
г/л (7-7) 


Т = 


服从 自由 度 为 (n - 1) 的 :分布 。 

下 面 以 作者 请 两 个 实验 室 用 中 子 活化 分 析 方 法 测量 同一 批 原始 瓷 片 中 钾 含 量 的 部 
分 数据 为 例 ,说 明成 对 样本 总 体 平均 值 差异 的 假设 检验 。 表 7-5 列 出 了 测量 数据 , 表 的 第 
2.3 列 是 18 对 测量 数据 ,组 成 一 组 配对 样本 ,第 4 列 是 成 对 数据 的 差 值 。 该 表 的 最 右面 
一 列 显示 差 值 的 正 负 号 ,这 列 数 据 将 在 7.7 节 的 非 参数 符号 检验 中 被 使 用 。 
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#75 两 个 实验 室 测量 18 片 原始 资 片 钾 含 量 的 数据 


样品 编号 ісе 42 钾 含 量 % 差 值 % 
ЖШ 1- Хх, 实验 室 2 - Х, Хү Х, 差 值 的 符号 

1 2.43 2.92 -0.49 - 
5 3.37 4.05 -0.68 - 
9 3.25 3.48 -0.23 - 
13 2.56 2.66 -0.10 - 
17 1.86 1.80 0.06 + 
21 1.94 1.83 0.11 + 
25 1.96 2.08 -0.12 - 
29 3.32 3.53 -0.21 - 
33 3.2 3.68 -0.48 - 
37 3.55 3.51 0.04 + 
41 2.13 2.58 -0.45 - 
45 2.09 1.87 0.22 + 
49 | 2.09 2.26 -0.17 - 

53 1.28 1.43 -0.15 
57 1.72 1.71 0.01 + 
61 3.14 2.75 0.39 + 
65 2.67 2.14 0.53 + 
69 3 2.51 0.49 + 

平均 值 2.531 2.599 -0.068 

标准 差 0.679 0.782 0.340 


下 面 检验 两 个 实验 室 测 量 钾 含 量 的 数据 间 是 否 存 在 系统 误差 。 检 验 过 程 如 下 : 
(1) 提出 原 假设 ,认为 两 个 实验 室 测 量 钾 含 量 的 数据 一 致 ,实验 室 间 不 存在 系统 
Н,:Е(0) = 0 , 备 择 假 设 为 H:E(D) 20. 
(2) 计算 统计 量 
ІРІ 0.068 0.068 


(3) 选取 а -0.5,Ж df = 17 的 上 分 布 函数 ,得 Toos = 2.110, 


(4) Т = 0.849 < Toos = 2.110, 接 受 Н: Е(р) = 0, a = 0.05 的 显著 性 水 平 
上 没有 观察 到 两 个 实验 室 测量 陶瓷 样品 的 钾 含 量 的 数据 间 存 在 系统 差异 。 

另 一 方面 也 可 以 计算 18 对 数据 的 皮尔 逊 相 关系 数 ,得 到 г = 0.901( 计 算 方法 见 第 九 
章 )。 利 用 公式 (6-3) 计算 得 到 


51 + 52 一 27128153 
SDT = 5 _ _ = 
(х,-2,) п 


_ Je + 0.7822 ~ 2 x 0.901 х 0.679 х 0.782 
= 18 


= 0.080 
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2131-31 12.531 -2.599 | 
-= * 0.080 


用 两 种 方法 计算 的 了 值 相等 ,可见 这 两 种 检验 方法 是 等 效 的 。 

如 果 将 相关 样本 作为 两 个 独立 样本 来 处 理 ,将 会 得 到 不 同 的 检验 结果 。 为 了 显示 这 
个 差别 ,下 面 用 检验 独立 样本 两 总 体 平 均值 一 致 性 的 方法 对 这 个 实例 作 检验 。 对 于 两 个 
独立 样本 ,其 计算 过 程 和 计算 结果 为 


2 2 2 2 
sp_ =s = Jsi + 52 - /0.6797 + 0.782 = 0.244 
х (X-X) n 18 


p- -žl _ 12.531- 2.599 | 
5° 0.244 


可 以 看 到 ,成 对 样本 条 件 下 计算 的 sp- = 0.080, 明显 小 于 独立 样本 条 件 下 计算 的 
so- = 0.244 ,前 者 的 Т 值 也 就 显著 大 于 后 者 。 因 此 相对 而 言 , 对 于 同一 批 数 据 , 作 为 相关 
样本 处 理 比 独立 样本 更 能 检验 出 总 体 平 均值 间 微 小 的 差异 。 


= 0.849 


= 0.280 


7.4 多 个 独立 样本 间 总 体 平均 值 一 致 性 的 检验 一 一 一 元 方差 分 析 (ANOVA) 


一 元 方差 分 析 在 英语 中 称 为 One-way ANOVA ( Analysis of Variance) о 在 一 些 统计 软件 
中 用 ANOVA 这 个 简称 。 它 应 用 于 三 个 或 三 个 以 上 样本 的 总 体 平均 值 一 致 性 检验 。 在 考 
古 研究 中 有 时 也 会 提出 这 类 要 求 ,例如 在 贫 将 .中 等 和 肥 活 三 种 土地 资源 类 型 的 地 区 ,各 
调查 测量 了 若干 聚落 的 面积 。 希 望 比较 三 地 区 之 间 的 聚落 平均 面积 间 有 没有 差异 ,以 了 
解 区 域 土地 资源 情况 是 否 影响 聚落 面积 的 大 小 。 袁 靖 (Yuan,2002) 曾 观测 比较 山东 乳山 
市 例 家 坊 贝 丘 遗 址 三 个 层 位 中 贝壳 的 平均 宽度 ,试图 探讨 人 类 的 超 量 食用 对 当地 贝 类 生 
物 期 望 寿命 的 影响 ,这 类 考古 研究 实例 都 可 以 借助 ANOVA 方法 。 


7.4.1 一 元 方差 分 析 的 原理 和 步骤 


假设 有 大 个 样本 ,每 个 样本 有 ап, ЭЖ (у = 1,2,...,)。 总 的 实体 数目 no = >, по 
第 ;组 中 第 i 个 实体 的 取 值 是 X; ,第 一 个 下 标 表示 实体 编号 ,第 二 个 下 标 表 示 样 本 编号 。 用 


Ух, 
元 表示 第 /个 样本 的 平均 值 用 元 w = 一- 开 一 表示 总 平均 值 , 即 各 组 样本 全 部 实体 加 在 
-起 的 平均 值 。 
下 面 先 定义 几 个 随机 量 ,它们 是 不 同 的 高 差 平方 和 。 
а) 总 离 差 平方 和 | 
_ ( > Уху)" 
TSS = 55, = 2)2)(Лу- Хы)" = ХХ - — (7-8) 


Пш 


总 离 差 平方 和 反映 各 样本 全 部 个 体 相对 于 总 平均 值 Xi。 的 离散 程度 。 
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(2) 总 组 内 离 差 平方 和 


(7-9) 


1 п; 


总 组 内 离 差 平 方 和 是 先 计算 每 个 样本 的 成 员 相对 于 本 样本 的 中 心 X 的 离 差 平方 
和 ,然后 再 把 各 样本 的 离 差 平方 和 加 在 一 起 。 总 组 内 离 差 平方 和 反映 各 样本 内 部 的 离散 
程度 。 

(3) 组 间 离 差 平方 和 
92 Уу)" 


Пш 


- 0-0. ху)" 
BSS = 85, = У(Х; - Xu)? = 5! > |- 
组 间 离 差 平方 和 是 把 各 样本 的 元 素 都 “ 移 ” 到 本 样本 的 平均 值 处 , 即 样本 的 重心 处 ， 
然后 再 计算 它们 相对 于 总 平均 值 Xo 的 离散 程度 。 组 间 离 差 平 方 和 反映 样本 之 间 的 离 
散 程度 。 
可 以 证 明 总 离 差 平方 和 等 于 总 组 内 高 差 平方 和 与 组 间 离 差 平 方 和 之 和 , 即 有 如 下 的 
关系 式 . 
55, = SSug + 55), (7-11) 
这 些 离 差 平方 和 也 是 统计 量 ,它们 的 自由 度 分 别 是 : 
总 离 差 平方 和 的 自由 度 df = mo -1 
总 组 内 离 差 平方 和 的 自由 度 dfa = >у(лу-1) = ma- k 


组 间 离 差 平方 和 的 自由 度 4, - 8-1 
不 难看 出 总 离 差 平方 和 的 自由 度 等 于 总 组 内 高 差 平方 和 的 自由 度 和 组 间 高 差 平方 
和 的 自由 度 之 和 。 即 有 如 下 的 关系 式 


(7-10) 


ды = 4 + Ф, (7-12) 
还 需要 定义 平均 离 差 平方 和 的 概念 , 它 等 于 离 差 平方 和 被 自由 度 去 除 。 相 应 有 : 
平均 总 离 差 平方 和 М5,, = 55/4, (7-13) 
平均 总 组 内 离 差 平方 和 М65,, = 55/4 (7-14) 
平均 组 间 离 差 平 方 和 М5, = 55/4 (7-15) 


一 元 方差 分 析 应 用 于 检验 多 个 总 体 平均 值 的 一 致 性 ,其 基本 思路 是 以 平均 总 组 内 高 
差 平方 和 М5, 作为 标尺 去 衡量 平均 组 间 离 差 平 方 和 MSs 的 大 小 。 即 以 平均 的 组 内 离散 
程度 去 衡量 各 样本 组 平均 值 态 之 间 的 离散 程度 。 为 此 计算 统计 量 
Е = М6,/М6,, (7-16) 
很 显然 ,在 样本 数目 和 每 个 样本 的 容量 一 定 的 情况 下 ,下 值 越 大 ,反映 样本 平均 值 之 
闻 的 差别 也 越 大 。 可 以 证 明 ,这 个 统计 量 РДА А Н 4, 和 dfs РРЖ 
据 著名 统计 学 家 费 舍 (Fisher) 的 姓 命名 的 , 它 是 一 个 有 两 个 自由 度 的 分 布 函数 ,分 别称 为 
第 一 和 第 二 自由 度 。 图 7-1 是 下 分 布 函数 的 示意 图 。 
Е 函数 的 取 值 总 是 正 值 ,曲线 底下 的 面积 等 于 1。 统 计 学 书 中 都 附 有 专门 的 Е 函数 
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表 , 给 出 不 同 自 由 度 时 的 FF 值 ,使 得 大 于 FF 的 概率 为 a, 即 P{ > F} = ae 也 可 以 用 
EXCEL 软件 中 的 FDIST ( F,，df1， 472) 函数 ,计算 下 > Е, В, ВРЕ > Е,| = ao 而 
函数 FINV( 概 率 值 a, dfl，df2) 返回 F, ,使 得 PiF > Е,| = ао 


7.4.2 ANOVA 实例 之 一 :不 同 土壤 肥 瘤 程度 的 地 域 中 聚落 平均 面积 的 一 致 性 检验 


了 解 了 一 元 方差 分 析 的 基本 思想 后 , 回 到 本 节 开 头 提出 的 ,检验 三 类 其 土壤 肥 痛 程 
度 不 同 的 地 区 之 间 理 落 平均 面积 有 没有 差异 的 实际 问题 。 土 壤 肥 痛 程 度 分 为 贫 瘤 、 中 等 
和 肥沃 三 类 , 表 7-6 的 第 2 至 6 列 给 出 分 属 三 类 地 区 13 个 聚落 的 面积 ,是 进行 一 元 方差 
分 析 的 原始 数据 。 下 表 的 右面 4 列 和 最 下 面 的 一 行 给 出 一 元 方差 分 析 中 间 过 程 的 数据 。 


Ж76 ЖЕ ЙЛ ЕНЕ НЕЁ p ЖЕЛЕТ ЛА ЕЖ ANOVA 中 间 过 程 数据 


завет жой m A У Х 2%; 
АЖ 4 8 7 9 4 24 6 154 
中 等 17 10 9 12 4 48 12 614 
肥沃 20 22 19 9 14 5 84 16.8 1522 
总 和 13 156 2290 


开始 检验 前 , 先 计算 3 个 离 差 平方 和 的 数值 : 
(> Ууу)" 


; 
То 


156: 
13 


= 2290 - - 418 


55ы = У) Dr 一 
1 


i 


55,, - Ууж _ Ош). (154 - ж), (614 - а), (152 - 于 = 158.8 
i * лу 


i i 4.4. w ‚от і5- 
- n = + +74 * 13 = 259.2 


„+ УСУ (55%) 242 48 842 156: 


п; 
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验证 55,, + 55, = 158.8 + 259.2 = 418 = SSwio 说 明 计算 过 程 中 没有 错误 。 这 3 个 高 
差 平 方 和 的 自由 度 分 别 为 12,10 和 2。 

下 面 进入 检验 过 程 。 

(1) 假设 聚落 的 平均 面积 与 仁 落 所 在 地 的 土壤 肥 痛 程度 间 没 有 关系 。 

Ho:u1 = рә = из Н: 至 少 有 一 对 平均 值 不 相等 

上 式 的 ji 表示 各 类 地 域 聚落 的 平均 面积 。 

(2) 利用 公式 (7-16) 计 算 统 计量 


F- 55,/ dfog _ 259.2/2 
SSug/ а, 158.8/10 


= 8.16 


其 自由 度 应 为 2 和 10, 

(3) 用 EXCEL 计算 函数 FDIST (8.16, 2, 10) = 0.008, 表 明正 = 8.16 的 概率 为 
0.008。 

(4) 可 以 在 a = 0.01 的 显著 性 水 平 上 拒绝 Hoy = ро = из , 即 认 为 三 种 不 同 土壤 
类 型 地 区 的 聚落 平均 面积 是 有 较 明 显 的 差异 的 。 

为 了 把 检验 的 结果 表述 的 更 清楚 ,一般 将 上 面 的 方差 分 析 过 程 和 结果 总 结 列 于 下 表 。 


&7-7 ANOVA 检验 结果 汇总 家 


SS MS F а 
组 间 2 259.2 129.6 8.16 <0.01 
组 内 10 158.8 15.88 
全 体 12 418 


Е(8.16,2,10) = а =0.008 


7.4.3 ANOVA 实例 之 二 :不 同 葬 式 莫 坑 的 平均 宽度 是 否 有 差异 


前 苏联 考古 学 家 克拉 斯 诺 夫 调 查 测量 了 高 尔 基 州 的 属 公 元 5 一 8 世纪 的 “ 缺 水 "墓地 
88 ЖЕ Ж ЭЕ И) ЗЕ з, ДП Ж ОБ. Ж, БЕ, Ж 7-8 列 出 原始 观测 数据 (数据 引 自 Федов-Давыдов 
《1987)) 。 现 用 一 元 方差 分 析 方法 判断 ,不 同 药 式 的 莫 坑 宽度 之 间 是 否 有 差别 ,或 者 说 墓 
药 的 规模 ( 墓 坑 宽度 ) 和 药 式 之 间 是 否 有 关联 。 


表 7-8 “ 缺 水 " 莫 地 墓 茵 的 葬 式 和 募 坑 宽度 统计 表 


ЖНЖ cm 中 心 宽度 cm Хаи 三 和 
жж жат жа 

26—50 38 1 0 0 1 
51—75 63 29 7 5 41 
76—10 88 21 4 9 39 
101—125 113 5 1 3 9 
126—150 138 1 0 0 1 
151—175 163 0 0 2 2 
> ЯП 57 12 19 88 


平均 宽度 77.5 75.5 93.3 80.6 
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为 了 减少 计算 的 工作 量 ,在 计算 各 种 莫 式 的 幕 坑 宽 度 的 平均 值 等 统计 量 时 ,将 幕 莫 
按 墓 境 的 宽度 分 成 6 组 ,每 组 全 部 墓 磊 的 幕 坑 宽度 均 以 该 组 幕 坑 宽 度 的 中 值 奉 代 。 第 一 
步 , 先 计算 各 芋 式 幕 坑 宽度 的 平均 值 和 总 平均 值 : 


ЖОШ ЗЕ Х, = (38 х 1 + Sx 29 4 eee ) = 77.5 


RER х,- 人 3 六 0 全 7 二 -75.5 


ЕГ" х, = (38 0+ 63 х5 + өө ) 1933 


19 
RER Xu (38 х1 + 6 х 41 二 ) _ 80.6 
再 计算 各 组 的 离 差 平方 和 和 总 的 离 差 平 方 和 |: 
85, = (38 ~- 77.5)? x 1 + (63 - 77.5)? x 29 + = 19934.25 
SS, = (38 ~ 75.5)? x 0 + (63 - 75.5)? x 7 + …… = 3125 
SS3 = (38 - 93.3)2 x 0 + (63 – 93.3)? х5 + ee = 16723.71 
SS = (38 - 80.6)? x 1 + (63 ~ 80.6)? x 41 + …… = 42698 


这 样 组 内 总 离 差 平方 和 和 组 间 离 差 平 方 和 分 别 为 ; 

55,, = 581 + 55; + 55; = 38782.96 

58, = (77.5 – 80.6)? х 57 + (75.5 - 80.6)? х 12 + (93.3 – 80.6)? х 19 = 3924.40 
验证 计算 过 程 85, + 58, = 38782.96 + 3924.40 = 42707.36, 5 55,, = 42698 基本 相等 。 
因为 在 这 个 例子 中 用 墓 坑 分 段 宽度 的 中 值 蔡 代 平均 值 作 近 似 计算 ,两 种 方法 计算 的 总 离 
差 平方 和 之 间 有 一 定 的 误差 是 容许 的 。 SS,s ЯП 55, 的 自由 度 分 别 为 df。 = 88 -3 = 85 和 
Фф, =3-1=2。 

检验 过 程 如 下 。 

(1) 提出 原 假设 各 葬 式 之 间 其 平均 墓 坑 宽 度 没 有 差别 , Ну: = н» = из ;相应 的 备 
择 假 设 为 :至 少 在 二 种 茸 式 之 间 其 平均 墓 坑 宽度 存在 差别 。 


, А 3924.4/2 
(2) 计算 统计 量 FF = 38783785 = 4.3 


(3) 设 定 显著 性 水 平 o, 查 自由 度 为 2 和 85 的 了 函数 表 , 并 作 比 较 ，Fo.a(2,85) = 3. 
10 < F =4.3 < Foo(2,85) = 4.84 。 

如 果 设 定 а = 0.05, 则 拒绝 原 假设 ;但 如 果 设 定 = 0.01, 则 接受 原 假设 。 因 此 检验 
的 结论 是 不 同 莫 式 的 墓 坑 平 均 宽 度 间 有 一 定 的 差异 ,或 者 说 幕 坑 的 平均 宽度 和 硬 式 间 存 
在 一 定 的 关联 ,但 关联 强度 并 不 高 。 


7.4.4 ANOVA 实例 之 三 :两 周 墓葬 中 青铜 容器 随葬 组 合 的 研究 


吴 十 洲 (2001) 曾 统计 研究 了 两 周 386 座 幕 葬 中 青铜 容器 的 数量 和 组 合 关 系 , 这 些 墓 
匡 属 不 同时 代 : 不 同文 化 地 区 , 幕 主 人 的 身份 不 同 。 研 究 的 目的 是 考察 两 周 时 期 墓 昔 随 
项 青 铜 容器 和 礼 器 ,特别 是 用 易 制 度 有 什么 规律 ,与 东周 文献 的 记载 是 否 相符 , 从 周 初 到 
战国 发 生 了 怎样 的 变化 等 。 因 为 目前 已 累积 了 相当 数量 关于 两 周 随葬 青铜 容器 的 资料 ， 
使 得 吴 十 洲 有 可 能 使 用 定量 方法 对 此 作 研 究 ,他 使 用 了 一 元 方差 分 析 和 相关 分 析 两 种 定 
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量 方法 。 本 节 将 介绍 吴 应 用 一 元 方差 分 析 的 部 分 研究 结果 ,目的 在 于 显示 一 元 方差 分 析 
应 用 于 考古 课题 的 过 程 与 作用 。 关 于 两 周 青铜 容器 的 随葬 组 合 研究 中 应 用 相关 分 析 的 
情况 将 于 第 九 章 简单 介绍 。 

ЕНЕ 326 座 幕 苦 按 时 代 早 晚 分 为 10 段 ,西周 5 段 , 春 秋 3 段 和 战国 2 段 ,根据 每 
一 段 幕 莫 中 随 匡 青铜 容器 数量 的 分 布 和 平均 值 ,检验 10 БЕКЕН ЛУ ЗЕ ЕТЕ 
容器 数量 的 总 体 平 均值 是 否 相等 。 提 出 原 假 设 :各 时 代 段 单 座 墓葬 随葬 青铜 容器 数 的 总 
体 平均 值 相等 。 根 据 平 均 组 间 差 和 平均 组 内 差 的 比值 ,对 这 个 样本 (10 Et 326 ЖШ) 
随 药品 分 布 ) 计 算得 到 的 Е 值 等 于 1.97, 在 a = 0.05 的 置信 和 度 水 平 下 查 自 由 度 (9,316) 
的 FARR, Foos = 1.91。 因 为 下 = 1.97 > Foos = 1.91, 在 a=0.05 的 置信 和 度 水 平 下 
拒绝 原 假设 ,认为 各 时 代 段 每 座 幕 葬 随 葬 青 铜 容器 的 平均 数 是 有 一 定 差别 的 , “总 的 趋势 
是 越 向 后 期 发 展 , 随 蕴 青 铜 容器 的 平均 值 越 高 "。 吴 还 统计 了 50 多 座 幕 主人 自 铬 身份 等 
级 的 墓葬 中 青铜 容器 的 数量 ,他 将 墓葬 分 成 6 个 等 级 ,一 元 方差 分 析 的 结论 是 “ 幕 主 自 铬 
身份 与 幕 蕴 青铜 容 器 的 数量 之 间 没 有 什么 差异 ”, 他 的 推论 是 随 茸 青铜 容器 的 数量 “并 不 
如 东周 礼 书 说 的 那么 严格 ”。 需 要 指出 ,目前 学 术 界 对 这 些 问 题 是 有 不 同 看 法 的 。 


7.4.5 关于 一 元 方差 分 析 的 前 提 和 分 析 结 果 讨 论 


至 今 我 们 仅 介绍 了 一 元 方差 分 析 的 原理 与 方法 ,但 一 元 方差 分 析 的 应 用 也 需要 满足 
一 定 的 前 提 条 件 。 它 对 样本 的 容量 没有 要 求 , 可 适用 于 小 样本 。 但 是 它 要 求 :(1) 样 本 的 
成 员 来 自 服 从 正 态 分 布 的 总 体 ,(2) 各 样本 的 方差 之 间 差 别 不 显著 和 (3) 抽 样 是 随机 的 。 
在 实际 工作 中 有 的 样本 的 个 体 数 太 少 , 没 法 检验 它们 的 分 布 。 可 以 先 计 算 每 个 样本 各 实 


体 的 离 差 X- Ху = or 然后 把 各 个 样本 全 部 实体 的 离 差 o 合 在 一 起 作 直 方 图 ,或 者 用 后 
面 7.5 节 将 介绍 的 正 态 P-P 图 来 检验 这 些 离 差 值 cj 是 否 服从 正 态 分 布 。 关 于 样本 间 方 差 
的 一 致 性 检验 将 在 7.6 节 中 讨论 。 但 是 作为 一 个 经 验 法 则 (The гше of thumb) ,只 要 样本 
闻 最 大 和 最 小 方差 的 差别 不 超过 2- 3 倍 ,就 可 以 应 用 一 元 方差 分 析 。 总 的 说 来 ,一 元 方 
差分 析 还 是 比较 宽容 的 ,容许 实际 情况 对 它 所 要 求 的 前 提 有 所 偏离 。 

一 元 方差 分 析 的 结果 可 能 是 接受 、 也 可 能 是 拒绝 原 假设 。 当 拒绝 原 假 设 时 ,如 同 
7.4.2 节 实例 的 情况 ,这 表明 诸 样 本 来 自 总 体 的 平均 值 之 间 是 有 差异 的 ,或 者 至 少 有 一 对 
样本 来 自 平均 值 有 差异 的 总 体 。 但 推论 应 该 到 此 为 至 ,一 元 方差 分 析 本 身 并 不 能 告诉 我 


们 娜 一 对 ,或 娜 几 个 总 体 间 的 平均 值 有 差异 。 为 了 进一步 在 诸 EX) 间 比 较 , 有 的 概率 
统计 学 家 提出 了 一 些 方法 ,如 Turkey's Honestly Significant Difference 方法 等 。 如 果 样 本 的 
数目 不 是 太 多 ,也 可 以 用 前 面 讨论 过 的 两 个 总 体 间 平均 值 一 致 性 的 U 检验 或 ; 检验 方法 ， 
把 样本 两 两 分 对 来 处 理 。 对 7.4.2 节 的 实例 一 ,通过 两 总 体 平均 值 的 一 致 性 检验 ,可 以 推 
论 贫 将 土壤 和 肥沃 土壤 环境 之 间 的 聚落 平均 面积 有 较 显 著 的 差别 。 


7.5 假设 检验 中 对 于 总 体 正 态 分 布 和 总 体 方差 一 致 性 前 提 的 检验 问题 * 


小 样本 两 总 体 均 值 一 致 性 的 ;检验 和 一 元 方差 分 析 均 涉及 两 个 前 提 条 件 , 要 求 有 关 
样本 服从 正 态 分 布 ,和 总 体 间 的 方差 无 显著 差别 。 下 面 对 这 两 个 前 提 条 件 的 检查 或 检验 
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作 简 单 说 明 。 
7.5.1 怎样 检查 或 检验 样本 是 否 来 自 正 态 分 布 总 体 


小 样本 包含 的 个 体 数 太 少 ,难以 画 直 方 图 观察 其 经 验 分 布 。 一 般 情 况 下 ,我 们 掌握 
的 考古 学 知识 也 不 能 给 出 样本 是 否 服从 正 态 分 布 的 推论 。 可 以 利用 SPSS 软件 的 descrip- 
tive—Explore—>Plot 程序 ,执行 柯 尔 莫 哥 洛 夫 -斯 米尔 诺 夫 检验 和 夏 比 洛 -维尔 克 检 验 ,检验 
样本 的 经 验 分 布 是 否 接近 于 正 态 分 布 。 其 中 夏 比 洛 -维尔 克 检 验 更 适用 于 小 样本 的 情况 
(п < 50). Ж 7-9 显示 SPSS 软件 相关 程序 对 7.2.2 节 的 实例 一 的 检验 结果 ,对 于 男女 墓 
项 的 随 莫 品 数量 这 两 个 样本 ,显著 性 水 平均 明显 大 于 0.10, 因 此 可 以 接受 它们 来 自 正 态 
分 布 总 体 的 假设 。 


Ж79 昔 葬 随 薄 品 数量 分 布 的 正 态 分 布 检验 (男女 性 募 苦 分 别 检验 ) 


Kolmogorov- Shapiro- Wilk 
Smirnov 
Statistic df Sig. Statistic df Sig. 
BEEZ 0.186 8 0.200 0.949 8 0.705 
ка 0.127 11 0.200 0.957 11 0.738 


也 可 以 利用 Normal Р-Р 或 Normal Q-Q 图 来 观察 或 粗略 检查 样本 是 否 来 自 正 态 分 布 总 

体 。Normal Р-Р 图 是 样本 的 实测 累计 频率 相对 于 按照 正 态 分布 计 算 的 期 望 累计 概率 的 散 

点 图 。 如 果 散 点 图 中 的 点 基本 上 育 集 于 一 条 45 度 对 角 线 附近 ,那么 可 以 认为 样本 的 经 

验 分 布 与 正 态 分 布 差别 不 大 。 图 7-2 和 图 7-3 分 别 是 7.2.2 节 实 例 一 中 男 、 女 性 墓 茵 的 随 
ЖАСЫН) Normal Р-Р 图 。 这 个 图 可 以 由 SPSS 软件 的 Chat 命令 产生 。 

1.00 1.00 


075 075] 
ж 
в 8 
go 8090 
Ж = 
025 025 
000 0.00 
0.00 25 .50 .75 100 0.00 25 50 75 100 
观测 累计 概率 观测 累计 概率 
图 7-2 7.2.2 节 的 实例 一 中 男性 疾苦 中 随 图 7-3 7.2.2 节 的 实例 一 中 女性 蔓 苗 中 随 
ЗЕ КАШ Ж Normal Р-Р 图 ЖЕЖ Normal Р-Р 图 


在 这 两 张 图 中 ,各 点 是 聚集 于 45 度 对 角 线 的 附近 ,偏离 不 大 。 说 明 男 、 女 墓 莫 的 随 
硬 品 数量 分 布 基本 服从 正 态 分 布 , 因 此 7.2.2 节 实 例 一 进行 的 对 两 总 体 平均 值 一 致 性 检 
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验 采用 t+ 检验 是 合理 的 。 

顺便 指出 在 统计 学 的 应 用 中 ,经 常 要 求 所 研究 的 样本 来 自 正 态 总 体 ,包括 7.4 节 讨 
论 的 一 元 方差 分 析 等 。 帮 至 某 些 离散 型 的 随机 变量 的 分 布 也 常用 正 态 分 布 近似 。 因 此 ， 
这 里 介绍 的 оппа! Р-Р 对 于 粗略 检验 经 验 分 布 是 否 接近 正 态 是 有 广泛 用 途 的 。 


7.5.2 两 总 体 方差 一 致 性 的 检验 


两 总 体 小 样本 的 平均 值 一 致 性 的 上 检验 和 ANOVA 的 应 用 都 要 求 样本 来 自 方差 相等 
的 总 体 。 本 节 将 讨论 两 总 体 间 方差 的 一 致 性 检验 。 
在 5.3 节 中 提 到 ,如 果 总 体 服从 正 态 分 布 , 则 以 总 体 方差 о 为 度量 尺度 的 样本 高 差 


R 


Da - х) (821) 
平方 和 一 = 二 (守卫 服从 自由 度 为 (n - 1) 的 g? 分布。 可 以 证 明 ,对 于 两 个 


Год 
2 
АЕА Н 36 ВВЕ, ОЗЕ НАТ ДЕДА А НВ (п – 1) MC- 1) 
52 
的 下 分布 。 因 此 ,对 两 总 体 方差 的 一 致 性 的 检验 过 程 如 下 : 
(1) 提出 原 假设 ,认为 两 个 总 体 的 方差 一 致 。H,:o? = 02; 备 择 假设 为 Hi:o? „а 
(2) 计算 统计 量 严 ,并 选择 s? > s2 


Е = (7-17) 


у е 
оор 


(3) Жа-0.05,Ж Е, о5(п – 1, п - 1) 
(4) ШҰ FA Foos. – 1, по – 1) 的 大 小 ,在 a=0.05 的 显著 性 水 平 上 ,作出 接受 或 
«ЗЕ Hoo = оў 
需要 指出 ,这 实际 上 是 双 侧 的 检验 ,只 是 由 于 技术 上 的 方便 ,选择 si > 52,018 FA 
是 大 于 1。 因 此 选 定 了 a 后 ,需要 查 Fs 值 表 7-10 给 出 对 7.2.2 和 7.3 中 三 个 例子 中 方差 
一 致 性 假设 的 检验 过 程 和 结果 。 | 
Ж7-0 7.2.2 蔬 和 7.3 节 总 体 均 值 一 致 性 检验 三 个 实例 中 方差 一 致 性 的 检验 结果 


样本 名 称 ЖЕ һ МЕ: ЕЙ а = 0.05 EHA 

7.2.2 例 一 PERY 8 8.17 1.829 3.950 
хаз 1 6.04 

7.2.2 例 二 青铜 剑 43 2.42 1.117 2.665 
FARR 15 2.29 

7.3 实例 实验 室 2 18 0.782 1.326 2.673 
ЕЗІ 18 0.679 


三 个 实例 的 正 值 均 小 于 相应 自由 度 为 c = 0.05 的 检 出 阐 ,它们 全 都 通过 了 两 总 体 的 
方差 一 致 性 检验 .说 明 在 这 些 例 子 中 用 上 检验 方法 检验 样本 平均 值 数 学 期 望 的 一 致 性 ， 
其 方差 一 致 性 前 提 是 满足 的 。 

顺便 指出 ,如 果 使 用 SPSS 软件 进行 两 总 体 均值 一 致 性 检验 ,程序 会 自动 对 中 = 吗 假 
设 作 检验 ,并 同时 输出 = 成 立 和 不 成 立 两 种 情况 下 的 检验 结果 。 表 7-11 显示 SPSS 
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软件 对 7.2.2 节 实 例 一 (男女 幕 划 的 随葬 品 数 量 的 均值 检验 ) 检 验 结 果 的 输出 ( 原 输 出 表 
格 稍 作 删 节 )。 第 3 行 和 第 4 行 分 别 显示 路 = 于 成 立 和 不 成 立 两 种 不 同情 况 下 的 均值 一 
致 性 : 检验 结果 。 

表 7-11 SPSS 软件 对 7.2.2 节 实 例 一 两 总 体 均 值 一 致 性 检验 的 输出 表格 


) бір. Mean Std. Error 
F Sig. t . . . 
(2-tailed) Difference Difference 
0.991 0.333 方差 一 致 2.804 17 0.012 9.1136 3.25076 


方 盖 不一致 2.669 12.304 0.020 9.1136 3.41501 


76 两 总 体 平 均值 一 致 性 的 非 参 数 假设 检验 


在 总 体 方差 未 知 的 条 件 下 ,小 样本 两 总 体 平 均值 一 致 性 ; 检验 的 前 提 条 件 是 :两 个 样 
本 都 来 自 正 态 总 体 和 两 个 总 体 的 方差 没有 显著 的 差别 。 但 是 有 时 这 两 个 前 提 条 件 不 成 
立 或 难以 确认 ,这 时 需要 用 非 参 数 假设 检验 的 方法 来 检验 两 样本 所 属 总 体 的 平均 值 是 否 
有 显著 差异 。 非 参数 检验 不 涉及 总 体 的 平均 值 和 方差 等 参数 ,也 不 需要 对 总 体 的 分 布 作 
什么 假设 ,因此 能 应 用 于 各 层次 数据 的 样本 。 下 面 将 通过 实例 来 说 明 非 参数 检验 中 的 秩 
和 检验 和 符号 检验 两 种 方法 。 前 者 适用 于 独立 样本 ,后 者 仅 适 用 于 不 独立 的 成 对 样本 。 


7.6.1 两 期 聚落 面积 一 致 性 的 秩 和 检验 


表 7-12 列 出 某 地 某 文化 前 后 两 期 聚落 的 面积 。 早 期 聚落 共 n = 20 个 ,晚期 聚落 п, 
= 18 个。 要 求 检验 两 期 聚落 的 总 体 平 均 面积 是 否 一 致 。 在 表 7-12 中 虽然 早晚 期 聚落 的 
面积 分 别 列 于 上 下 2 行 中 ,但 前 后 两 期 的 聚落 是 按 面积 的 大 小 统一 排序 的 。 这 样 每 个 聚 
落 都 有 一 个 反映 其 面积 大 小 次 序 的 序号 ,或 称 秩 , 记 录 在 表 7-12 的 第 一 行 中 。 在 对 每 个 
聚落 面积 赋予 序号 时 ,需要 注意 面积 相等 的 聚落 。 例 如 早晚 期 都 有 一 个 面积 为 56 的 聚 
落 , 本 来 它们 的 序号 应 该 是 9 和 10, 现在 对 这 2 个 聚落 均 赋予 序号 9.5。 同 样 原因 3 个 面 
积 同 为 72 的 聚落 的 序号 都 被 赋予 20, 因 此 不 存在 序号 为 19 或 21 的 聚落 。 


表 7-12 某 地 某 文化 前 后 两 期 聚落 面积 的 统计 表 
序号 1 2 3 4 5 6 7 8 9,5 9.5 11 12 13 


早期 31 35 40 42 46 50 54 56 61 
晚期 52 56 60 62 
序号 и 15 16 7 18 20 20 20 2 23 242 25 26 
早期 64 6 67 72 Nn B 7 

晚期 68 70 72 5 76 B 
序号 27 8 9 30 31 2 3 34 35 3% 37 38 

早期 83 84 86 91 

晚期 79 80 81 85 зт 88 90 92 


在 这 个 例子 中 ,早期 聚落 的 数目 多 于 晚期 的 , 即 п, > m, 我 们 把 实体 数 少 的 晚期 聚 
落 的 序号 加 起 来 ,有 = 7+9.5+ 11…… + 36 + 38 = 429.5, ТКУ, 
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可 以 证 明 , 如 果 “ 两 期 的 聚落 来 自 同一 个 总 体 ”, 而 且 mm 和 п, 都 大 于 10, 那 么 秩 和 了 
近似 服从 平均 值 和 标准 差分 别 为 : 


побу + m + 1) Ести 
= z Жо = рр (7-18) 


的 正 态 分 布 。 对 上 面 例题 计算 得 到 jy = 351,0 = 4/1170 = 34.2, 

检验 过 程 如 下 : 

(1) 提出 原 假设 ,Ho: 两 期 的 聚落 来 自 同一 个 总 体 ; 备 择 假设 六 :两 期 的 聚落 来 自 不 
同 的 总 体 。 

(2) 计算 统计 量 


7 _ 了 -4 _ 429.5 - 351. 
3-а б 342 = 


(3) 选 定 显著 性 水 平 a = 0.05, 因 为 是 双 测 检验 , 查 Zoos = 1.96。 因 为 Zo os = 1.96 
< 了 = 2.29,#а = 0.05 的 显著 性 水 平 上 判断 ,两 期 聚落 的 平均 面积 是 有 差别 的 ,从 总 体 
上 讲 聚 落 的 规模 随时 间 有 扩大 的 趋势 。 

前 面 提 到 ,要 求 n 和 m 都 大 于 10, 这 是 秩 和 检验 的 前 提 条 件 。 当 这 个 条 件 不 成 立时 ， 
秩 和 是 不 服从 正 态 分 布 的 。 尽 管 在 有 的 统计 学 书 中 ,专门 列表 为 小 样本 的 п, 和 п, 值 也 给 
出 相应 的 Т, 和 Т, E, WREEK TIEF T 和 7 之 间 , 则 接受 原 假 设 , 反 之 , 则 拒绝 原 
假设 。 但 小 样本 秩 和 检验 的 可 信 度 往往 是 受到 质疑 的 。 

两 个 独立 样本 平均 值 一 致 性 的 秩 和 检验 又 称 为 Mann-Whitney U 或 Wilcoxon rank sum 
检验 ,读者 可 以 使 用 有 关 的 计算 机 统计 软件 来 实现 。 需 要 指出 , 非 参数 假设 检验 虽然 有 
本 节 开 头 所 介绍 的 某 些 优点 ,但 其 检验 的 功效 低 , 细 心 的 读者 会 注意 到 , 秩 和 检验 并 非 是 
直接 检验 两 样本 所 属 总 体 的 平均 值 是 否 一 致 ,而 是 检验 两 样本 是 否 来 自 同一 个 总 体 。 另 


外 为 了 保证 检验 的 可 靠 性 ,包括 秩 和 检验 在 内 的 非 参 数 检验 同样 要 求 样本 的 容量 应 大 
此 


二 0 


2.29 (7-19) 


7.6.2 ”两 个 配对 样本 平均 值 一 致 性 的 符号 检验 


前 一 节 讨 论 的 前 后 两 期 聚落 的 面积 属于 不 相关 的 独立 样本 ,而 7.3 节 表 7-5 记录 的 
两 个 实验 室 共同 测量 的 18 片 原始 痪 的 钾 含 量 属 于 两 个 配对 的 样本 ,因为 每 片 冤 片 都 有 
一 对 钾 含 量 数据 。7.3 节 使 用 上 分 布 函数 检验 了 它们 的 平均 值 的 一 致 性 。 对 于 配对 样本 
的 总 体 平均 值 一 致 性 也 可 以 用 非 参数 方法 检验 。 下 面 对 表 7-5 的 例子 作 非 参数 的 符号 检 
验 ,同样 检验 两 个 实验 室 的 测量 数据 间 是 否 存在 系统 误差 。 由 表 7-5 的 最 右面 一 列 的 数 
据 可 见 , п = 18 个 差 值 中 出 现 正 值 的 次 数 m = 8, 出 现 负 值 的 次 数 相 应 为 n-m = 10。 

符号 检验 的 过 程 如 下 : 

(1) 作 原 假设 包 : 两 个 实验 室 的 测量 数据 间 不 存在 系统 误差 , 即 两 个 样本 的 数据 来 
自 同一 个 总 体 ,如 原 假设 成 立 , 则 每 片 瓷 片 的 一 对 镍 含量 数据 之 差 (X， - Xs) 的 符号 可 正 
可 负 , 完 全 是 随机 的 ,而 且 出 现 正 或 负 的 概率 应 该 是 相等 的 ,都 等 于 0.5。 对 于 n 片 瓷 片 ， 
ZEX - X) 的 符号 出 现 m 个 “+" 值 的 概率 服从 二 项 式 分 布 ( 见 4.3.2), 而 且 p = 4 = 
0.5。 因 此 原 假设 也 可 写成 Н:Р\+} = P|-| = 0.5。 备 择 假设 Н, 的 设 定 随 检验 要 求 是 双 
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侧 或 单 侧 而 定 ,本 例 是 检验 两 个 实验 室 的 测量 数据 间 是 否 存在 系统 误差 , 属 双 侧 检验 , 因 
ЕНЕРІ»! ЖРІ-І „0.5% 

(2) 下 一 步 在 原 假设 成 立 的 条 件 下 计算 n = 18 个 差 值 中 出 现 正 值 或 负 值 的 次 数 小 
于 等 于 m = 8 的 概率 。 


Pim < 8 (п - т) < 8} = 2( >) C%(0.5)®) = 0.815 


(з) 判断 :两 个 实验 室 的 18 对 数据 中 , 正 负 符号 次 数 的 差别 大 于 等 于 2 的 概率 为 
81.5%, 属 高 概率 事件 ,因此 可 以 以 很 高 的 置信 和 度 接 受 实验 室 间 不 存在 系统 误差 的 原 假 
设 , 即 Ho:Pl+} = Р{-} = 0.5, 

在 本 实例 中 样本 容量 п = 18, 属 小 样本 。 当 样本 中 配对 实体 的 数目 超过 30 时 ,二 项 
式 分 布 接近 正 态 分 布 ,数据 的 处 理 将 更 方便 简易 ,这 将 在 第 八 章 中 详细 介绍 。 

符号 检验 只 考虑 差 值 的 符号 而 没有 考虑 差 值 的 大 小 ,虽然 它 简单 明了 ,但 并 没有 充 
分 利用 数据 中 更 多 的 信息 。 非 参数 检验 中 的 Wilcoxon 符号 秩 和 检验 既 考 虑 了 差 值 的 符 
号 又 考虑 差 值 的 大 小 。 鉴 于 本 书 的 篇 幅 和 符号 检验 在 考古 研究 中 应 用 的 有 限 性 ,这 里 不 
作 介绍 ,有 兴趣 的 读者 可 参考 有 关 的 统计 学 书籍 。 


ЖЛЕ 总体 比例 数 的 估计 和 假设 检验 


前 面 几 章 我 们 讨论 了 总 体 平 均值 和 方差 等 参数 的 估计 问题 和 假设 检验 。 但 在 考古 
研究 中 还 经 常 碰 到 样本 和 总 体 比 例 数 的 问题 ,例如 :(1) 根 据 墓地 男女 人 上 骨 数 的 比例 判断 
莫 地 所 属 氏 族 的 男女 性 比 是 否 正 常 ;(2) 一 位 旧 石 器 考古 学 家 在 某 地 区 随机 采集 石 制品 ， 
其 中 有 燃 石 制品 。 他 当然 会 用 实际 采集 的 料 石 质 制品 的 百分比 作为 该 地 区 石 制品 中 燃 
石 质 制 品 所 占 百 分 比 的 估计 量 。 他 希望 估计 的 置信 和 度 达 95% ,而 反映 精密 度 的 估计 误差 
不 高 于 10% ,那么 这 位 考古 学 家 至 少 应 采集 多 少 件 石 制品 ; (3) ЖИЕН 9 ЗЕ 100 Ж, 
其 中 60 РВЕЗЕ, MEARE 50 ЖЕ, Мр РД БЕЗЕ И ЖН 35 座 ,希望 判断 
这 两 个 幕 地 所 属 氏 族 在 幕 莫 制度 带 不 带 随 莫 品 的 比例 上 有 无 明显 差别 。 上 面 3 个 例子 
都 涉及 比例 数 的 问题 ,而 这 类 关于 比例 数 的 问题 都 是 与 二 元 变量 有 关 , 即 涉及 某 种 二 元 
属性 的 取 值 ,如 性 别 的 男女 , 石 制品 的 石 质 是 否 是 焰 石 АЗЕЛ ВЕЗЕ, RIE 4. 
3.2 中 已 看 到 ,作为 贝 努 利 试验 结果 的 二 元 变量 服从 二 项 式 分 布 ,因此 要 用 二 项 式 分 布 来 
处 理 上 述 的 问题 。 第 四 章 还 提 到 , 当 样 本 的 容量 较 大 , п > 30 时 ,二 项 式 分 布 接近 于 正 态 
分 布 , 用 正 态 分 布 来 处 理 可 以 极 大 地 简化 计算 过 程 。 下 面 通过 实例 来 讨论 总 体 比 例 数 的 
估计 和 假设 检验 。 


81 单 总 体 比 例 数 的 假设 检验 :检验 募 地 人 骨 男 女性 比 是 否 正 常 


山西 夏 县 东 下 汉 遗 址 的 龙山 幕 地 共 发 气 出 17 具 成 年 人 骨 , 其 中 男性 11 具 , 女 性 6 
具 。 可 以 计算 ,这 批 人 骨 的 性 比值 R( 男 性 人 数 / 女 性 人 数 ) = 11/6 = 1.83。 由 于 生男 生 女 
的 概率 是 基本 相等 的 (p = gqg = 1/2), 正常 情况 下 人 和 群 的 性 比 应 该 接近 于 1。 这 个 样本 观 
测 到 的 性 比值 明显 偏离 正常 值 "1”, 能 否 由 此 判断 , 东 下 汉 遗 址 龙山 时 期 所 有 埋葬 的 成 员 
(总 体 ) 的 性 比 也 偏离 正常 值 , 即 实 际 观 测 到 的 性 比值 偏离 正常 值 "1" 是 属于 随机 涨 落 , 抑 
或 当时 当地 所 埋 鞠 的 全 部 成 员 的 性 比 就 是 异常 的 , 系 男 多 女 少 。 为 此 要 对 总 体 的 性 比 作 
假设 检验 。 检 验 过 程 如 下 : 

(1) 提出 原 假设 Ho: 东 下 汉 龙 山 时 期 所 有 被 埋葬 的 成 年 成 员 的 性 比 是 正常 的 , 即 р 
= 4 = 0.5; 备 择 假 设 为 Hi:p з д з 0.5. 

(2) 已 知 n 个 个 体 中 出 现 k 个 是 男性 的 概率 服从 二 项 式 分 布 ,CiPig"*。 在 原 假设 成 立 
的 前 提 下 ,利用 二 项 式 分 布 计算 在 一 个 17 具 人 上 骨 的 随机 样本 中 男性 占 11 具 以 上 (包括 
п 具 ) 的 概率 (为 了 计算 方便 ,可 以 计算 女性 人 骨 少 于 6 具 [ 含 6 具 ] 的 概率 )。 

Pin = 17, 男 性 > 11| = ОРА жу СІР +1) СР + ‘+ +17CeP! gs = 0.166 

(3) A а= 0.1 8 0.05, Pin = 17, 男 性 >11) УКТ о, ЕНУ Но, ШІ 
不 能 因为 实际 观测 到 的 样本 的 性 比 明显 偏离 正常 值 “1”, 达 1.83, 而 推断 东 下 汉 龙 山 时 期 
埋葬 的 成 年 人 上 骨 总 体 上 性 比 异 常 。 即 使 在 显著 性 水 平 a=0.16 水 平 上 ,也 不 能 推断 总 体 
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的 性 比 不 正常 。 

研究 我 国 新 石器 时 代 莫 地 人 骨 性 比 的 另 一 个 例子 是 陕西 华 县 元 君 庙 仰 韶 募 地。 经 
性 别 鉴定 的 成 年 人 骨 146 具 ,其 中 男性 85 ,女性 61, Б = 85/61 = 1.37。 同 样 希望 判断 
元 君 唐 仰 韶 莫 地 总 体 的 人 骨 性 比 是 否 正常 。 元 君 庙 募 地 的 人 骨 材 料 数 大 于 30, 属 大 样 
本 。 因 此 男性 人 骨 出 现 次 数 开 这 个 随机 变量 所 服从 的 二 项 式 分 布 十 分 接近 Ap = пр,а? = 
пра 的 正 态 分 布 WCn,c?) ,从 而 可 以 用 正太 分布 来 判断 总 体 性 比 是 否 正常 .计算 和 判断 过 


程 中 使 用 频率 比 频 次 更 为 方便 ,为 此 引入 n 次 观测 中 男性 人 肯 出 现 的 频率 (= Eat 


随机 变量 ,p 同样 接近 正 态 分 布 , 它 的 数学 期 望 应 该 是 p ,而 标准 差 М, 这 样 变 量 
= Р-р. 
2 = ал (8-1) 

服从 标准 型 的 正 态 分 布 。 

下 面 利 用 正 态 分 布 对 元 君 庙 幕 地 的 性 比 进行 检验 。 

(1) ЖН Ао: 元 君 庙 莫 地 人 骨 的 性 比 正 常 , 即 = q = 1/2, 备 择 假设 НА 
上 骨 的 性 比 不 正常 , 即 p q з 1/2. 

(2) 计算 统计 量 : 


7 Вр _ -85/146-0.5 


Vpg/n _ /0.5 х 0.57146 

(3) ЖЖ а=0.05, 查 正 态 分 布 函数 表 Ze = 1.96. 

(4) 因为 2 > Zs ,在 a=0.05 的 水 平 上 ,拒绝 原 假设 ,接受 备 择 假设 , 即 在 a=0.05 
的 显著 性 水 平 上 ,判断 元 君 庙 莫 地 的 总 体 人 骨 性 比 偏离 正常 性 比值 。 

对 比 东 下 汉 龙 山 幕 地 和 元 君 庙 仰 韶 募 地 ,尽管 实际 观测 的 东 下 冯 样 本 的 性 比值 
(1.83) 比 元 君 庙 样本 的 性 比值 (1.37) 高 出 很 多 ,但 是 假设 检验 的 结论 却 是 相反 的 。 同 样 
在 a=0.05 的 水 平 上 ,检验 结果 认为 元 君 店 募 地 的 总 体 人 骨 性 比 偏离 正常 值 , 却 接受 了 东 
下 冯 龙 山 墓地 总 体 性 比 正 常 的 假设 。 看 起 来 这 似乎 有 悖 于 常识 。 产 生 这 种 情况 的 原因 
是 因为 东 下 冯 龙 山 墓地 的 人 骨 数 太 少 。 两 个 检验 的 可 靠 性 是 不 一 样 的 。 关 于 样本 的 容 
量 在 总 体 比 例 数 的 假设 检验 中 对 犯 两 类 错误 的 概率 以 及 对 总 体 比 例 数 的 估计 中 可 信和 度 
和 精密 度 的 影响 ,将 在 下 一 节 中 详细 讨论 。 不 过 东 下 冯 和 元 君 庙 的 例子 清楚 表明 ,简单 
根据 样本 性 比 的 观测 值 直 接 去 推断 总 体 的 性 比 是 否 正 常 是 很 危险 的 ,特别 是 小 样本 的 情 
况 。 必 须根 据 性 比 服 从 二 项 式 分 布 的 知识 进行 统计 推断 。 本 书 作者 (1990) 曾 系统 统计 了 
1989 年 以 前 发 表 的 我 国 32 处 墓地 的 人 肯 性 比 ,并 由 此 对 这 些 墓地 人 肯 的 总 体 性 比 进 行 
统计 推断 ,发 现 16 个 墓地 性 比 异 常 。 其 中 除 巫 山大 溪 幕 地 外 ,都 是 男性 过 半 。 北 首 岭 、 
半 坡 、 姜 寨 和 史家 村 等 4 个 陕西 的 仰韶 慕 地 ,样本 的 性 比值 出 现 的 概率 小 于 0.01, 人 上 骨 性 
比 属 高 度 蜡 常 。 例 如 半 坡 墓地 62 具 人 上 骨 中 ,男性 有 52 具 。 陕 西 仰韶 幕 地 人 骨 性 比 高 度 
异常 的 原因 ,是 当时 的 埋葬 制度 所 导致 ,还 是 由 于 其 他 原因 导致 仰韶 氏族 成 年 人 口 本 身 
的 性 比 就 不 正常 ,男性 多 于 女性 ,这 值得 进一步 研究 。 


= 1.986. 
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8.2 单 总 体 的 比例 数 的 估计 中 置信 和 度 、 精 密度 
和 样本 容量 三 者 间 的 关系 


本 节 根 据 一 个 实例 来 讨论 估计 总 体 比例 数 时 置信 和 度 、 精 密度 和 样本 容量 三 者 间 的 关 
系 。 有 一 位 旧 石 器 考古 学 家 在 某 地 区 随机 采集 了 200 件 石 制 品 , 其 中 有 燃 石 制品 50 件 。 
根据 这 组 观测 数据 ,他 能 以 多 高 的 置信 和 度 和 精密 度 对 该 地 区 燃 石 制品 的 比例 数 作 估计 。 


对 于 这 个 样本 ,位 石 制品 出 现 的 频率 是 = 30 ~ 0.25。 他 当然 会 用 这 个 频率 值 = 
0.25 作为 该 地 区 石 制品 中 奢 石 质 制品 所 占 的 百分比 p 的 点 估计 量 ,用 \/ PCL= 全 - 
[5-25 5 _ 0.031 估计 5 的 标准 差 。 如 果 要 求 对 p 的 区 间 估计 的 置信 度 为 (1 - а), Ж 


么 估计 区 间 应 该 是 :| а», ze РО), 。 可 以 计算 这 个 区 间 估计 
的 精密 度 。 估 计 的 精密 度 与 估计 的 相对 误差 成 反比 ,后 者 定义 为 估计 区 间 的 半 宽度 被 区 
间 的 中 心 值 去 除 所 得 的 商 值 , 即 


Ze У/р(1-р)/п 
总 体 比例 数 估计 的 相对 误差 = — 2 Р 


如 果 这 位 考古 学 家 希望 估计 的 置信 和 度 为 95% ‚Хх ЕХ] A ИК ЖЕЛ ЛЕН a KS ЕЙ р 
的 估计 区 间 是 [0.250 + 1.96 x0.031], 即 [0.250+ 上 0.061]。 估计 的 相对 误差 为 守 = 
0.24。 可 见 估 计 的 精密 度 并 不 高 。 

公式 (8-2) 显 示 ,对 总 体 比 例 数 区 间 估 计 的 置信 和 度 和 精密 度 是 相互 制约 的 ,置信 和 度 越 
高 , а 值 越 小 , Zs 越 大 , 则 估计 区 间 越 宽 , 佑 计 的 相对 误差 也 越 大 ,从 而 估计 精密 度 越 低 。 
这 种 关系 也 反映 在 下 表 所 列 出 的 这 位 旧 石 器 考古 学 家 实际 样本 的 数据 中 。 表 8-1 显示 了 
这 个 实例 中 对 应 不 同 的 а 值 时 的 上 .下 置信 阔 , 置 信 区 间 宽 度 ,估计 的 置信 和 床 和 相对 误 
差 。 表 中 从 上 到 下 ,估计 的 置信 和 度 不 断 增加 ,但 置信 区 间 宽 度 增 加 ,估计 的 精密 度 却 不 断 
降低 。 

表 8-1 对 应 于 不 同 的 值 时 估计 总 体 比例 数 的 置信 区 间 宽 度 、. 置 信和 度 和 精密 度 间 的 关系 


(8-2) 


a Za 置信 区 间 置信 区 间 置信 区 间 置信 度 精密 度 指标 
2 Е Т 宽度 (1-0% 相对 误差 
0.2 1.28 0.210 0.290 0.080 80 0.169 
0.1 1.64 0.199 0.301 0.102 90 0.204 
0.05 1.96 0.189 0.311 0.122 95 0.243 
0.01 2.58 0.170 0.330 0.160 99 0.320 


由 公式 (8-2) 可 见 , 只 有 增加 观测 量 n, 才能 同时 提高 估计 的 私信 度 和 精密 度 , 当然 这 
是 以 多 支出 研究 经 费 .精力 和 时 间 为 代价 的 ( 见 5.3)。 如 果 这 位 考古 学 家 在 对 该 地 区 燃 
石 制品 总 体 比 例 数 的 估计 中 仍 希 望 保 留 95% 的 置信 和 度 , 但 要 求 估 计 的 相对 误差 不 大 于 
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5% ,那么 他 至 少 应 采集 多 少 件 石 制品 (л) 呢 。 利 用 公式 (8-2) 计 算 
2% Мр(1-р)/п 


р 
г.96,/0:250_- 0.25) = 0.25 х 0.05 
n = 4610 


答案 是 至 少 需要 随机 采集 4610 HEA А, ВЕЕ ЕЕ КЕН а НС НИЗ 
同时 达到 95% 置 信和 度 和 5% 相 对 误差 的 要 求 。 


83 两 个 总 体 比例 数 一 致 性 的 假设 检验 


前 两 节 讨 论 了 单 总 体 比例 数 的 估计 和 假设 检验 ,本 节 将 通过 实例 来 讨论 两 个 总 体 比 
例 数 一 致 性 的 假设 检验 。 已 知 昔 地 甲 发 拨 了 100 AE, Н. 60 座 带 有 随葬 品 ,而 墓地 
乙 发 据 了 50 ЕЖ, Нр 35 РЕ. 。 希 望 根据 这 两 个 样本 来 判断 ЕНГ ВЕЗЕ 
品 墓葬 的 比例 数 是 否 一 致 , 即 这 两 个 墓地 所 属 氏 族 在 是 否 带 随葬 品 方面 有 没有 差异 。 这 
个 实例 是 要 利用 两 个 样本 中 带 随 车 品 董 芋 比 例 数 的 差 (p1 - ps) ,去 推断 总 体 相应 比例 数 
的 差 (pi - ро) 是 否 等 于 零 。 在 进行 检验 前 ,需要 先 计算 随机 变量 (pl - ро) 的 标准 差 sm， 
计算 公式 如 下 : 


sp, = (ГЕНШЕ (8-3) 


пуп) 


Җи р 和 g 分 别 是 两 个 样本 的 应 ЖП а; 值 的 计 权 平均 ,nl 和 ns 是 两 个 样本 的 容量 。 
Ер, = 0.6,0 = 0.4,p = 0.7,4: = 0.3, 计算 


= 0.6x100+0.7x 50 
р = 100 + 50 


= 0.633 


д = 1-р = 0.367 


100 + 50 
100 х 50 


所 以 ,sp = (/0-6з х 0.367 х = 0.0835 


检验 过 程 如 下 : 
(1) 提出 原 假设 Но: 两 墓地 带 随 莫 品 墓 莫 的 比例 数 无 差别 , 即 p = p2; (ірі # Рс 


(2) 计算 随机 变量 


I (pı = P2) - (р-ро) | 1(0.6-0.7)-0| 
зр, = 0.0835 


(3) Z = 1.2 查 双 侧 情况 下 的 正 态 函 数 表 ,得 a = 0.230, 

(4) 无 论 选 择 显著 性 水 平 a = 0.05 8 а = 0.1, 均 小 于 0.23, 因 此 都 应 该 接受 原 假设 
瓦 , 即 不 能 认为 两 墓地 之 间 带 随葬 品 医药 的 比例 数 有 明显 差别 。 

如 果 检 验 结果 拒绝 原 假设 Ho 则 可 以 进一步 对 两 个 总 体 的 比例 数 差 (pl - ps) ЖЖ 


= 1.20 


Z= 
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间 估 计 并 讨论 估计 区 间 的 置信 度 和 精密 度 等 。 


84 用 "子弹 形 " 图 比较 多 个 总 体 比例 数 的 差异 : 
以 分 析 赤 峰 考 古 调查 资料 为 例 


子弹 形 图 是 根据 英文 “Bullet graph” 翻 译 的 , 它 能 较为 直观 地 显示 两 个 或 多 个 总 体 间 
平均 值 和 比例 数 的 差异 ,以 及 数据 的 离散 程度 。 这 里 我 们 将 通过 赤峰 中 美 联 合 区 域 考古 
调查 阶段 性 报告 的 资料 来 介绍 应 用 子弹 形 图 显示 多 个 总 体 比 例 数 差异 的 比较 。 

赤峰 中 美 联 合 考古 研究 项 目 (2003) 于 1999 和 2000 年 在 赤峰 地 区 区 域 考古 调查 中 记 
录 统 计 了 1691 个 有 地 面 考古 遗存 的 采集 点 ,每 个 采集 点 的 面积 是 1 公 倾 。 在 这 些 采 集 点 
ERRET 24510 件 陶 片 ,其 时 代 跨 度 从 兴隆 洼 期 一 直到 近代 。 在 每 个 采集 点 上 采集 到 
的 降 片 数目 当然 是 不 等 的 ,在 其 中 的 282 个 采集 点 , 陶 片 的 分 布 较为 稀 朴 ,在 1 公 倾 的 面 
积 上 采集 到 的 陶 片 数 少 于 5 片 ,研究 者 称 之 为 “小 采集 "点 。 出 自 小 采集 点 的 陶 片 数 共有 
476 片 , 占 总 陶 片 数 的 1.9% 。 研 究 者 对 小 采集 点 的 出 现 原 因 作 了 讨论 ,认为 “如 果 这 些 稀 
玻 散 布 的 陶 片 是 由 古代 遗物 的 近期 搬运 所 致 ,我 们 应 当 预 期 这 种 搬运 对 每 个 时 期 的 陶 片 
都 有 类 似 的 影响 ”。 但 子弹 形 图 明显 地 显示 各 时 期 “小 采集 " 陶 片 的 比例 数 偏 离 平 均值 
1.9% 的 情况 是 很 不 一 样 的 ,从 而 排除 了 “近期 搬运 所 致 " 的 可 能 。 表 8-2 列 出 赤峰 地 域 调 
查 中 所 采集 的 各 时 期 的 总 陶 片 数 和 各 时 期 小 采集 的 陶 片 数 。 


表 8-2 赤峰 地 区 采集 的 各 时 期 的 陶 片 数 和 小 采集 的 陶 片 数 


时 代 和 文化 类 型 少 于 5 片 的 小 采集 少 于 5 片 的 小 采集 
陶 片 数量 | 百分比 % 
3 1 5.5 


2.3 


根据 表 8-2 的 数据 和 本 章 前 面 关 于 样本 比例 数 所 服从 的 分 布 的 知识 ,可 以 计算 各 时 
期 “小 采集 ” 陶 片 总 体 比 例 数 不 同 置信 和 度 的 估计 区 间 。 图 8-1 是 一 张 子 弹 形 图 , 它 显示 了 
从 兴隆 尘 文 化 到 辽 代 各 时 期 “小 采集 " 陶 片 的 总 体 比 例 数 的 置信 区 间 , 其 置信 和 度 分 别 为 
80% 、95% 和 99% 。 

从 图 上 看 到 对 于 兴隆 洼 . 赵 宝 沟 和 小 河沿 文化 ,因为 样本 的 陶 片 数 太 少 ,其 总 体 " 小 
采集 ? 陶 片 比例 数 的 估计 区 间 极 宽 , 与 各 时 期 小 采集 陶 片 的 平均 比例 数 (1.9% ) 的 比较 没 
有 统计 学 的 意义 。 例 如 ,尽管 兴隆 洼 小 采集 陶 片 的 比例 数 最 高 , 达 5.5% ,偏离 平均 值 
1.9% 其 远 。 我 们 应 主要 考虑 红 山 、 夏 家 店 下 层 和 过 代 3 个 时 期 的 小 采集 陶 片 数 ,因为 其 
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99% 
95% 
80% 


置信 区 间 


Confidence 


” 采集 点 的 比例 
%of collections 


图 8-1 赤峰 地 区 各 时 期 “小 采集 " 陶 片 的 总 体 比例 数 的 子 
弹 形 图 , 标 出 了 置信 度 分 别 为 80% .9%5% 和 99% 的 
估计 区 间 ， 图 上 虚线 表示 全 部 小 采集 " 陶 片 的 总 
кий. 9% КО 


数量 较 多 。 这 3 个 时 期 的 “小 采集" 比例 数 99% 置 信 度 的 估计 区 间 均 不 与 代表 各 时 期 平 
均 比例 数 1.9% 的 虚线 重 倒 。 因 此 有 很 大 的 把 握 认为 辽 代 小 采集 殊 片 的 比例 数 偏 高 ,以 
及 红 山 文 化 和 夏 家 店 下 层 文化 小 采集 陶 片 的 比例 数 篇 低 , 均 明 显 偏离 于 平均 比例 数 
1.9% 。 赤 峰 考古 调查 的 研究 者 们 认为 ,各 时 期 小 采集 移 片 的 比例 数 的 差异 可 作为 这 些 
稀 朴 散布 的 各 时 期 陶 片 不 是 近期 农业 活动 所 致 的 一 个 证 据 。 他 们 认为 这 些小 如 集 陶 片 
是 有 考古 意义 的 ， 为 此 他 们 还 对 小 采集 陶 片 的 资料 作 相 关 分 析 来 加 强 这 一 论据 ， 我 们 将 
在 第 九 章 讨论 相关 和 回归 时 再 回 到 赤峰 小 采集 的 例子 。 

总 之 ,从 上 面 的 实例 看 到 子弹 形 图 在 比较 几 个 总 体 的 比例 数 时 ,显示 出 高 摩 的 直观 
性 和 形象 性 。 子 弹 形 图 在 表述 考古 资料 中 ,包括 对 总 体 间 平 均值 的 比较 中 也 得 到 广泛 的 
应 用 。 


8.5 жипафхакаоиклтинияктак тн 


кюк ари н зн, Жкн ЮЕШ, елим 
断 该 地 区 当时 的 确 不 存在 该 种 动物 或 该 类 石 质 的 制品 呢 。 这 里 需要 非常 小 心 ,因为 存在 
另 僵 种 可 能 性 。 如 果 该 种 动物 或 该 类 石 质 制品 在 总 体 中 的 比例 数 р 很 低 ! 而 采集 的 样本 
ЖЕ ”又 不 大 ,那么 有 相当 大 的 可 能 ,在 采集 的 样本 中 不 出 现 该 种 动物 或 该 类 五 质 制品 。 
正好 似 随 机 抽取 元 张 扑克 租 ,完全 有 可 能 其 中 未 出 现 *A”, 但 不 能 由 此 推断 , 整 付 扑克 牌 
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中 不 包含 “A”。 如 果 在 某 地 区 随机 采集 了 п 件 石 制品 未 见 料 石 制品 ,虽然 我 们 不 能 肯定 
该 地 区 不 存在 料 石 制品 ,但 是 我 们 可 以 问 该 地 区 料 石 制品 的 总 体 百 分 比 小 于 1% 或 小 于 
5% 的 概率 多 大 。 这 个 问题 也 可 以 反 过 来 提问 , 即 如 果 燃 石 制品 的 百分比 小 于 1% 或 小 于 
5% ,随机 采集 的 п 件 石 制品 未 见 到 燃 石 制品 的 概率 多 大 。 两 种 提问 的 方式 虽 不 一 样 , 但 
实质 是 一 致 的 。 而 对 于 后 面 一 种 提问 方式 , 概率 值 的 计算 较为 方便 , 它 可 以 用 二 项 式 分 
布 的 第 一 项 С°рО(1- р)" 来 计算 ,如 果 n = 1 和 p = 0.01, 那 么 未 见 燃 石 制品 的 概率 是 
0.99。 这 时 只 有 (1 - 0.99) = 0.01 的 置信 和 度 判 断 总 体 燃 石 制品 的 比例 不 大 于 1% 。 如 果 n 
= 10 和 p = 0.01, 那么 未 见 料 石 制品 的 概率 是 (0.99)” = 0.904, 将 有 (1 - 0.904) = 
0.096 的 置信 和 度 判 断 总 体 料 石 制 品 的 比例 数 不 大 于 1% 。 当 n = 100 时 ,将 有 0.634 的 置信 
度 判 断 燃 石 制 品 的 总 体 比例 数 不 大 于 1% 。 该 类 问题 的 一 般 表 达 式 是 

判断 洋 石 制品 的 总 体 比例 数 不 大 于 p 的 置信 和 度 = [1 - (1 - p)"] (8-4) 
如 果 要 求 判断 p < 0.01 的 置信 和 度 达 95% , 则 有 

0.95 = (1 - 0.99") 

解 这 个 方程 ,得 log 0.05 = nlog 0.99, п = 298, 即 如 果 在 298 件 石 制品 中 未 发 现 燃 石 制 
ка ,那么 可 以 有 95% 的 置信 和 度 判 断 总 体 购 石 制品 的 比例 不 大 于 1%。 表 8-3 列 出 ,不 同 的 
样本 容量 п 时 ,判断 感 兴趣 事件 在 总 体 中 不 同 的 出 现 概率 p 的 置信 和 度 。 例 如 当 n = 150 
时 , 未 见 某 种 实体 , 则 该 种 实体 的 总 体 比 例 数 低 于 2% 的 概率 为 95%, 低 于 1% 的 概率 为 
78% , 低 于 0.1% 的 概率 为 14%。 


表 8-3 不 同 容量 的 样本 中 未 见 某 种 实体 时 ,判断 该 种 实体 在 总 体 中 的 


比例 数 低 于 某 值 р 的 置信 和 度 计算 表 

样本 容量 һ p=0.1% p = 0.5% p=1% p = 2% р = 5% 
20 0.02 0.095 0.182 0.332 0.642. 
30 0.03 0.14 0.26 0.455 0.785 
50 0.049 0.222 0.395 0.636 0.923 
100 0.095 0.394 0.634 0.867 0.994 
150 0.139 0.529 0.779 0.952 > 0.999 
200 0.181 0.633 0.866 0.982 1 
400 0.33 0.863 0.982 > 0.999 1 
700 0.504 0.97 0.999 1 1 
1000 0.632 0.993 1 1 1 
1600 0.794 > 0.999 1 1 1 
3000 0.95 1 1 1 1 


由 表 8-2 可 见 ,在 实际 样本 中 未 见 某 类 实体 的 情况 下 ,样本 的 容量 越 大 ,估计 该 类 实 
体 的 比例 数 低 于 一 定数 值 的 置信 和 度 愈 高 ,而 当 样本 容量 一 定时 ,要 求 估计 的 比例 数 越 低 ， 
估计 的 置信 和 度 也 越 低 。 
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前 面 几 章 讨 论 了 考古 实体 按 单个 随机 变量 的 描述 性 统计 ,讨论 了 单个 数值 型 随机 变 
量 的 参数 估计 和 假设 检验 。 但 是 很 多 情况 下 需要 同时 考虑 考古 实体 的 两 个 或 两 个 以 上 
的 数值 型 属性 ,这 时 除了 要 分 析 实 体 按 两 个 数值 变量 的 分 布 、 每 个 变量 的 平均 值 和 方差 
外 ,还 要 考虑 两 个 变量 相互 之 间 的 关系 ,本 章 将 介绍 数值 变量 间 的 相关 分 析 和 回归 分 析 。 


9.1 实体 按 两 个 数值 变量 经 验 分 布 的 图 形 表 述 一 一 散 点 图 


第 三 章 曾 介 绍 用 直方 图 、 茎 叶 图 和 箱 点 图 等 来 形象 地 描述 实体 按 单个 数值 属性 的 分 
布 ,在 这 些 图 上 可 以 直观 地 看 到 实体 按 某 属性 分 布 的 中 心 位 置 、 分 布 宽度 以 及 是 单 峰 还 
是 双 峰 分 布 等 。 为 了 直观 地 观察 实体 同时 按 两 个 数值 属性 的 分 布 ,需要 用 散 点 图 。 散 点 
图 分 别 以 实体 的 两 个 属性 作为 五 和 7 坐标 轴 ,根据 每 个 实体 两 个 属性 的 取 值 决定 它 在 XY 
为 坐标 轴 的 平面 上 的 位 置 。 在 散 点 图 上 不 仅 能 看 到 实体 分 别 按 这 两 个 属性 的 分 布 特征 ， 
包括 实体 分 布 的 中 心 .分 布 宽度 、 实 体 的 分 组 ,此 外 散 点 图 还 可 以 显示 两 个 属性 之 间 的 关 
Ж. Шола 到 图 9-14 是 4 个 散 点 图 的 例子 。 

图 9-1a 显示 辽宁 西部 发 现 的 37 把 东周 时 期 青铜 剑 按 锡 和 铅 的 百 分 含 量 两 个 属性 分 
布 的 散 点 图 。 从 图 上 观察 , 剑 的 锡 和 铅 含量 似乎 是 随机 的 ,在 0~28% 间 波动 。 无 论 是 对 
于 剑 的 分 布 ,或 锡 和 铅 之 间 的 关系 ,似乎 都 看 不 到 什么 明确 的 规律 。 

图 9-1b 显示 18 片 原始 瓷 的 钾 含 量 在 两 个 中 子 活化 分 析 实 验 室 测量 结果 的 散 点 图 ， 
这 是 7.3 节 中 的 例子 的 数据 。 该 图 中 代表 18 个 瓷 片 的 点 基本 上 形成 一 条 接近 座 标 原点 
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Шол 辽宁 西部 发 现 的 37 把 东周 青铜 剑 按 锡 。 图 9-1b 两 个 中 子 活化 分 析 实 验 室 分 别 测量 18 
和 铅 百 分 含量 分 布 的 散 点 图 (部 分 实验 片 原始 资 片 中 钾 含量 结果 的 散 点 图 
AEB) 
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的 直线 ,说明 同 一 个 瓷 片 两 个 变量 的 取 值 A Y 同时 高 或 同时 低 , 即 反映 两 个 实验 室 测 
量 数据 的 基本 一 致 性 。 这 与 第 七 章 “ 在 a = 0.05 的 显著 性 水 平 上 没有 观察 到 2 个 实验 室 测 
量 陶瓷 样品 的 钾 含 量 存在 明显 的 系统 差异 ”的 假设 检验 的 结论 相符 。 实 验 点 基本 组 成 直 
线 的 情况 表明 Х 和 了 的 线性 相关 性 ,也 正 是 本 章 9.2 节 所 要 讨论 的 问题 。 

图 9-1: 是 本 书 作者 测定 的 商 周 时 期 多 个 地 点 出 土 的 57 片 原 始 瓷 , 按 其 Cr 和 Ce 两 元 
素 含量 分 布 的 散 点 图 。 该 图 显示 这 些 瓷 片 基本 上 可 分 成 高 Cr 低 Ce、 低 Cr 低 Ce 和 低 Cr 
高 Ce 三 类 。 进 一 步 的 研究 可 以 将 网 片 的 这 种 分 类 与 痪 片 的 出 土地 点 相对 应 。 另 外 该 图 
还 显示 这 些 瓷 片 的 Cr 与 Ce 含量 间 不 存在 明确 的 相关 关系 。 

图 9-1d 显示 一 个 假想 的 样本 中 18 个 实体 按 其 两 个 数值 变量 分 布 蕊 与 了 的 散 点 图 。 
无 论 的 取 值 如 何 ,Y 的 取 值 总 是 在 16 一 18.5 间 小 幅度 的 波动 。 也 就 是 说 了 的 取 值 是 独 
立 的 ,不 依赖 于 的 数值 。 
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图 9-le 57 片 原始 瓷 片 相对 于 它们 的 Cr 和 Ce 9-14 假想 样本 中 18 个 实体 按 其 两 个 数值 变 
元 素 含 量 分 布 的 散 点 图 量 X 与 分布 的 散 点 图 


上 面 4 张 图 表明 , 散 点 图 能 直观 地 揭示 实体 按 所 选 两 属性 的 分 布 规律 ,并 对 实体 进 
行 分 类 ,同时 还 能 揭示 两 属性 间 的 关系 。 散 点 图 在 各 个 学 科 , 包 括 考 古 学 中 得 到 广泛 的 
应 用 。 本 章 的 内 容 将 局 限于 两 个 属性 间 的 相关 关系 ,主要 是 线性 相关 关系 的 讨论 。 


9.2 线性 回归 的 基本 原理 和 皮尔 逊 相 关系 数 


相关 分 析 和 回归 分 析 是 研究 两 个 数值 变量 之 间 的 关系 ,但 这 种 关系 不 是 我 们 所 熟悉 
的 函数 关系 了 = f(X)。 在 函数 关系 中 , 自 变 量 X 一 般 能 唯一 地 决定 应 变量 7 的 取 值 回 归 
分 析 所 研究 的 变量 间 的 关系 并 不 是 这 种 完全 确定 的 关系 ,而 是 一 种 相关 关系 。 这 里 当 X 
确定 后 ,了 的 取 值 仍 可 以 在 一 定 的 范围 内 波动 ,7 的 取 值 分 布 经 常 接近 于 正 态 分 布 。 例 如 
父母 的 平均 身高 并 不 能 绝对 确定 子女 的 身高 ,后 者 还 受 遗传 过 程 中 的 随机 因素 和 后 期 的 
营养 条 件 等 影响 。 但 在 一 般 情况 下 ,父母 的 平均 身高 对 子女 的 身高 是 有 很 大 的 影响 的 ,两 
者 闻 是 相关 的 。 在 社会 现象 ,包括 考古 现象 中 ,完全 确定 的 函数 关系 是 少见 的 ,更 多 的 是 
各 种 变量 之 间 的 相关 关系 。 例 如 一 个 地 区 新 石器 时 代 的 聚落 大 致 是 年 代 越 晚 聚落 面积 越 
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大 ,但 具体 到 某 个 聚落 , 它 的 年 代 并 不 能 确切 地 决定 该 聚落 的 面积 ,聚落 的 年 代 和 面积 间 
存在 的 是 一 种 相关 关系 ,而 不 是 函数 关系 。 下 面 将 通过 考古 实例 来 介绍 直线 回归 的 基本 
原理 和 皮尔 逊 相关 系数 。 

设 某 地 曾 有 一 个 生产 A 型 彩陶 的 中 心 ,其 产品 输出 到 邻近 地 区 。 在 离 该 生产 地 点 不 
ШЕШ х, 公 里 的 一 些 同 时 代 的 遗址 中 发 现 了 А 型 彩陶 陶 片 ,并 统计 了 各 地 每 立方 米 文 
化 堆积 中 A 型 彩陶 片 的 平均 数目 7,。 统 计 结 果 列 于 表 9-1 和 图 9-2。 


表 9-1 12 个 遗址 离 A 型 彩陶 的 生产 中 心 的 距离 和 发 现 的 A 型 彩陶 残片 的 密度 


离 A 型 彩陶 生产 点 距离 (公里 ) ,总 
每 立方 米 堆积 中 A 型 彩陶 片 平均 数 ，Y 


遗址 号 
离 A 型 彩陶 生产 点 距离 (公里 ), X, 
每 立方 米 堆积 中 A 型 彩陶 片 平 均 数 ,了 Y, 


A 型 彩陶 片 相对 含量 


0 10 20 30 40 5 
离 A 型 彩陶 生产 中 心 距离 (km) 
图 9-2 12 个 遗址 离 A 型 彩陶 生产 中 心 的 距离 与 其 
文化 堆积 中 A 型 彩陶 片 密度 间 的 关系 图 


从 表 和 图 看 出 , 随 着 遗址 离 A 型 彩陶 生产 中 心 的 距 高 增加 ,其 堆积 物 中 A 型 彩陶 片 

的 相对 数量 总 体 上 呈 下 降 趋势 。 而 且 除 个 别 点 外 ,下 降 趋 势 接 近 于 线性 的 。 因 此 很 自然 

地 希望 用 线性 下 降 的 规律 来 描述 实际 的 下 降 趋势 ,或 者 说 用 一 条 由 方程 9-1 所 描述 的 直 
线 来 拟 合 上 述 12 个 实验 点 。 

У = БХ +а (9-1) 

在 未 建立 这 个 直线 方程 时 ,我 们 只 能 用 这 12 个 遗址 每 立方 米 堆积 物 中 A 型 彩陶 数 


目的 平均 值 和 标准 差 了 = 54.8 + 16.0 来 预测 每 个 遗址 的 A 型 彩陶 密度 ,预测 是 很 不 精确 
的 。 如 果 能 够 建立 这 个 直线 方程 ,那么 知道 了 某 遗 址 离 生产 中 心 的 距离 X ,就 可 以 更 准 
确 地 预测 该 遗址 每 立方 米 堆积 物 中 A 型 彩陶 的 数目 7;。 问 题 在 于 怎样 找 一 条 最 佳 的 直 
线 , 即 怎样 来 定 直 线 方程 (9-1) HWRE а MAR b. 
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921 线性 回归 方程 的 参数 a ЖП Ь 的 确定 


在 线性 回归 中 一 般 把 Х; 当 作 自 变量 。 任 意 选 定 一 组 a 和 8 值 , 即 任意 选 定 一 条 直 
线 后 ,对 于 每 个 ,可 以 用 公式 (9-1) 计 算 辫 , 称 为 对 应 于 X 的 预测 值 。 实 际 测量 值 Y, 
SFW У, 之 间 的 差 ( Үү; - 了 ) 称 为 残 差 。 它 是 从 实际 测量 点 (XX;， 了 ;) 平 行 于 YY 轴 作 直线 
与 拟 合 直 线 相交 所 形成 的 那 段 线段 的 长 度 ( 见 图 9-3 )。 残 差 的 大 小 因 a Mb 取 值 的 不 同 
而 变化 ,可 能 为 正 也 可 能 为 负 。 残 差 的 大 小 反映 了 直线 拟 合 程度 的 优 劣 ,最 佳 的 拟 合 直 
线 当 然 应 该 使 得 全 部 实验 点 都 尽量 地 接近 该 直线 , 即 全 部 残 差 的 绝对 值 都 尽量 小 。 为 了 
定量 地 描述 直线 拟 合 程度 的 优 劣 ,定义 残 差 平方 和 RSS: 
RSS = X, (Y, - Ү,) (9-2) 


0 2 4 6 8 10 (14 


图 93 线性 回归 分 析 中 残 差 的 定义 


残 差 平方 和 的 数值 反映 了 拟 合 直线 接近 所 有 实验 点 的 程度 。 选择 5 和 a 的 标准 , 即 最 
佳 拟 合 的 标准 应 该 是 使 得 残 差 平方 和 最 小 。 可 以 证 明 ,按照 下 面 两 个 公式 计算 确定 5 和 a 
后 ,所 得 的 RSS 最 小 。 


， Da- OY -Y) 1. (9-3) 
Dx- X)? ы 
a = 了 - bX (9-4) 
公式 (9-3) 中 的 L ЖІ, 称 为 内 积 系数 ,上 ЖІ, RAC - 1) RE XHEMA, 
Y 闻 的 协 方差 cov (х,у), п 为 样本 的 容量 。 公 式 (9-4) 说 明 最 佳 拟 合 直线 是 通过 所 有 数据 


ң(х, Ү) 的 重心 (对, 了) 。 这 样 得 到 的 最 佳 拟 合 直 线 称 为 回归 直线 ,b 是 回归 直线 的 斜率 ， 
又 称 为 回归 系数 ,a 是 回归 直线 的 截 距 。 回归 直线 是 一 条 高 差 平 方 和 最 小 的 拟 合 直 线 。 
对 于 上 面 A 型 彩陶 片 按 遗 址 距离 分 布 的 例子 ,用 公式 (9-3) 和 (9-4) 计 算得 到 b = 
— 1.64, 和 a = 95.40。 相 应 回归 直线 的 方程 为 
У --1.64Х + 95.4 (9-5) 
6b 值 为 负 , 说 明 当 处 (距离) 增加 时 ,了 值 (每 立方 米 堆积 物 中 A 型 彩陶 片 的 数目 ) 减 少 。 现 在 
有 各 种 计算 机 软件 来 计算 这 些 回归 方程 的 参数 ,不 用 再 花 很 多 的 时 间 来 人 工 计算 了 。 
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9.2.2 线性 回归 方程 的 检验 


上 面 讨 论 了 怎样 计算 a 和 6 以便 得 到 最 佳 的 拟 合 直 线 ,得 到 回归 方程 ,但 是 并 没有 涉 
及 一 个 重要 的 问题 , 即 所 得 到 的 回归 方程 是 理 有 意义 ,置信 和 度 有 多 高 。 对 于 任何 一 个 样本 
(Х;,Ү) (7 = 1,2…n) 都 可 以 建立 一 条 回归 直线 ,但 只 有 当 样 本 的 诺 (X;, 了) 数据 对 之 间 
客观 存在 的 关系 接近 于 线性 关系 时 , 求 线 性 回归 方程 才 是 有 意义 的 , 才 有 助 于 根据 X M 
测 了 7。 而 像 图 9-1a 和 9-1c 所 示 的 数据 , XG, Y) 间 的 关系 或 者 是 随机 的 ,或 者 共有 特殊 的 
数据 结构 ,虽然 也 可 以 按照 公式 (9-3) 和 (9-4) 得 到 线性 回归 方程 ,但 它 并 不 能 反映 与 
Ү, 间 的 真实 关系 ,因而 也 无 助 于 对 У, 的 预测 。 因 此 在 使 用 回归 方程 前 ,首先 要 作假 设 检 
验 , 需 要 否定 “XX 与 7 无关 ”的 原 假设 ,或 者 说 需要 制定 一 个 判别 标准 。 

下 面 用 方差 分 析 方 法 来 帮助 建立 这 个 标准 ,为 此 需要 引 和 人 和 讨论 回归 平方 和 、 相 关 
系数 等 概念 。 可 以 证 明 对 于 任何 一 组 数据 (X,Y)(i = гел), 其 总 离 差 平 方 和 总 是 等 于 
残 差 平方 和 与 回归 平方 和 之 和 , 即 

D-DD- DO -Y (9-6) 
或 TSS = RSS + RSSR (9-7) 
公式 (9-6) 右 边 的 第 二 项 称 为 回归 平方 和 。 这 个 公式 的 含义 是 ,回归 分 析 只 能 解释 总 离 差 
平方 和 中 的 一 部 分 , 即 解释 由 于 自 变量 钱 变 化 所 引起 的 Y 的 变化 ,这 一 部 分 就 是 回归 平 
方 和 。 残 差 平 方 和 是 总 离 差 平方 和 中 的 另 一 部 分 ,是 回归 分 析 所 不 能 解释 的 那 一 部 分 。 残 
差 平方 和 与 回归 平方 和 也 都 是 统计 量 ,而 且 可 以 证 明 , RSS 和 RSSR 分 别 服从 自由 度 为 (n 
- 2) 和 1 的 x? 分 布设 想 一 种 理想 的 情况 ,n 个 实验 点 原来 就 在 一 条 直线 上 ,如 图 9-4 所 
Ж, 那么 这 条 直线 本 身 就 是 回归 直线 ,回归 平方 和 就 等 于 总 离 差 平 方 和 ,而 残 差 平方 和 为 
零 。 可 见 残 差 平方 和 反映 了 实验 数据 偏离 回归 直线 的 程度 。 回 归 直 线 的 参数 a 和 1 就 是 
在 要 求 残 差 平方 和 最 小 的 条 件 下 确定 的 。 


94 实验 数据 本 身 组 成 一 条 直线 的 一 种 理 
想 情况 ,回归 直线 与 实验 直线 重合 


公式 (9-6) 中 的 每 一 项 都 是 平方 项 ,它们 都 是 正 值 ,因此 残 差 平方 和 的 取 值 范围 总 是 
处 在 0 和 总 离 差 平方 和 >) (Ү, - У) 之 间 。 现 定义 一 个 新 的 统计 量 r: 
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Som- (0-Р) 

r? FERR JAAA ВТ ВЕЛЕ ЖЕ А R EEO ЖП) ЕЙ, ДЕЛЕ 1 Яп 0 [Н] ЭЛЕ 

据 本 身 组 成 一 条 直线 的 理想 情况 (图 9-4), 则 7 = 1, 而 当 实验 数据 Х, УУ, 完全 无 关 时 ， 

PRETE 2 的 开 方 值 " 称 为 样本 无 与 世间 的 皮尔 逊 相关 系数 , 它 是 在 - 1 和 + 1 间 变 

化 ,r 的 绝对 值 越 接近 1, 表 示 X 与 Y 间 的 相关 程度 越 高 ; 当 r 接近 0 时 ,表示 Х, 5 y, ЇН] 

没有 明显 的 相关 关系 。 所 以 r? 和 + 都 是 相关 强度 的 度量 。r 的 符号 反映 了 相关 的 方向 , Ж 
正 相关 还 是 负 相 关 。 利 用 回归 平方 和 的 关系 式 和 公式 (9-3): 


А — _ А _ 2 
RSSR = X (Y; - Y) = У) (а + bX; – а - bX) = 1 > (X, -XY = 2909.9) 


可 以 推导 得 到 关于 т 的 表达 式 : 


(9-8) 


1, , | 
r= 一 一 各 一 一 — cov(#, у) (9-10) 
(ыт %79 


对 于 上 面 讨 论 的 关于 A 型 彩陶 分 布 的 例子 ,根据 公式 (9-10) 可 以 计算 得 到 ,各 遗址 离 
彩陶 生产 中 心 的 距离 X 与 遗址 中 A 型 彩陶 片 的 相对 含量 Y 这 两 个 变量 则 的 相关 系数 > 
= - 0.757。 如 果 变 量 了 和 了 是 标准 化 的 ,那么 c. = о, = 1, 它 们 之 间 的 相关 系数 r 就 等 于 
它们 的 协 方差 соу (Х,Ү), т = соу (X,Y)。 相 关系 数 rz 与 斜率 4b 的 符号 是 一 致 的 ,在 本 
例 中 > 与 都 是 负 的 ,因此 是 负 相 关 , 因 为 随 碟 的 增长 ,7 是 下 降 的 。 

通过 上 面 的 讨论 ,对 回归 方程 有 效 性 的 检验 过 程 如 下 : 

(1) 提出 原 假设 本 :XX 与 7 完全 无 关 ; 备 择 假设 为 Hi:X 与 Y 相关。 

(2) 计算 统计 量 。 这 里 可 以 使 用 两 个 统计 量 进行 检验 , 它们 分 别 是 上 上 和正。 

t= 092 -= (9-11) 
可 以 证 明 , 这 个 统计 量 服从 自由 度 为 (n - 2) 的 上 分 布 。 

另 一 方 面 因 为 RSS 服从 自由 度 为 (n -2) 的 x? 分 布 和 RSSR 服 从 自由 度 为 1 的 x? 分 

布 , 因而 统计 量 | 


RSSR 


F= (9-12) 


RSS/(n - 2) 
服从 ЕС, - 2) 分 布 。 对 上 面 A 型 彩陶 片 按 遗址 距离 分 布 例子 ,经 计算 得 到 。 
0.757 4263 
t = “2 = 3.664# F = 318/10 = 13.41. 


(3) 利用 其 中 任 一 个 统计 量 都 可 以 对 “X, 与 完全 无 关 ” 的 原 假设 进行 检验 。 

对 于 上 = 3.664, 查 自由 度 df = 10 的 :上 表 ,显示 相应 的 显著 性 水 平 a = 0.004。 对 于 
F -13.41. ЕНШІ dfi = 1 和 4df, = 10 的 下 表 ,显示 相应 的 显著 性 水 平 也 为 w = 0.004。 
由 此 可 见 这 两 个 检验 是 等 价 的 ,都 是 在 а = 0.004 的 显著 性 水 平 上 拒绝 “XX, 5Y 完全 无 
关 ” 的 原 假设 ;以 高 达 99.6 % 置信 和 度 接 受 备 择 假设 ,认为 “XX, 与 Y 是 相关 的 ”。 也 就 是 说 ， 
如 果 这 12 对 (X,Y 了;) 数据 来 自卫 与 7 完全 无 关 的 总 体 ,那么 只 有 0.4% 的 概率 出 现 ; > 3. 
664 或 者 Е > 13.41 的 情况 ,对 于 所 讨论 的 实例 ,判断 “X, 与 Y 是 相关 的 ”的 含义 是 “A 型 
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彩陶 生产 点 附近 的 遗址 中 A 型 彩陶 片 的 相对 数量 与 遗址 离 生 产 中 心 的 距离 是 相关 的 , 相 
距 越 远 , 每 立方 米 堆积 物 中 A 型 彩陶 片 的 数量 越 少 ”。 

由 公式 (9-11) 可 以 看 到 , 当 样 本 容量 п 很 大 时 ,即使 相关 程度 不 高 ,r 数值 离 1 较 远 ， 
t 值 也 会 较 大 ,从 而 有 可 能 以 一 定 的 置信 度 作出 “X; 与 Y; 是 相关 的 ”的 判断 。 也 就 是 说 对 
于 大 样本 ,即使 实际 的 相关 关系 很 弱 , 也 有 可 能 被 检验 出 来 。 因 此 我 们 在 实际 研究 中 应 
同时 关注 (1) 以 一 定 的 置信 和 度 判 断 是 否 相 关 和 (2) 相 关系 数 本 身 的 大 小 这 两 个 方面 。 这 
类 情况 在 下 一 章 中 讨论 两 个 名 称 变量 间 的 关联 时 同样 存在 。 


9.2.3 线性 回归 中 残 差 的 分 析 * 


从 前 面 的 讨论 中 ,我 们 看 到 回归 分 析 只 是 解释 样本 的 总 离 差 平方 和 中 的 一 部 分 , 解 
释 了 因 自 ЖЕ Х 变化 所 引起 的 了 的 变化 。 对 于 前 面 所 讨论 彩陶 的 实例 , 因 距 高 的 远近 不 
同 而 导致 的 各 遗址 每 立方 米 堆积 物 中 A 型 彩陶 片 的 数量 变化 通过 回归 分 析 得 到 了 解释 。 
各 遗址 中 A 型 彩陶 片 相对 数量 变化 中 没有 得 到 解释 的 那 部 分 就 反映 在 残 差 中 。 本 小 节 
将 对 残 差 做 分 析 。 下 面 的 表 9-2 除 重复 列 出 表 9-1 中 的 原始 数据 X 和 Y; 外 ,还 列 出 了 回 
归 值 Y, MRŽC, - У). 


表 92 12 个 遗址 中 A 型 彩陶 残片 的 密度 和 离 生产 中 心 的 距离 的 回归 分 析 中 的 残 差 


遗址 号 1 2 3 4 5 6 7 8 9 10 11 12 
X; 4.0 7.0 15.0 20.0 21.0 24.0 28.0 29.0 33.0 35.0 36.0 44.0 
Y, 95.0 84.0 89.0 67.0 42.0 66.0 38.0 8.0 40.0 35.0 56.0 38.0 
回归 值 88.8 83.9 70.8 62.6 61.0 56.0 49.5 47.8 41.3 38.0 36.4 23.2 
残 差 62 0.1 182 4.4-19.0 10.0 -11.5 -39.8 -1.3 -3.0 19.6 14.8 


残 差 也 是 一 个 随机 变量 ,也 可 以 像 对 待 其 他 随机 变量 一 样 来 研究 它 的 分 布 规 律 。 对 
残 差 的 分 析 有 时 能 帮助 寻找 隐藏 在 未 能 被 解释 的 那 部 分 总 离 差 平方 和 背后 的 原因 。 在 
所 研究 的 实例 中 ,也 许 第 8 号 遗址 会 引起 我 们 的 注意 。 它 的 残 差 的 绝对 值 特别 大 ,而 且 
是 负 值 ,说 明 在 该 遗址 发 现 的 A 型 彩陶 片 的 相对 数量 比 回归 值 低 很 多 。 产 生 这 种 情况 的 
原因 ,有 可 能 是 因为 该 遗址 交通 不 便 ,也 可 能 是 该 遗址 自己 也 生产 彩陶 ,因此 对 输入 外 来 
彩陶 的 要 求 低 所 致 。 真 正 的 原因 需要 有 另外 的 考古 资料 来 帮助 判断 ,但 残 差分 析 显 示 8 
号 遗址 是 一 个 比较 特殊 的 遗址 ,需要 引起 注意 。 


9.3 相关 分 析 的 应 用 实例 


9.3.1 仰韶 文化 陶器 上 刻 划 符 号 出 现 频率 的 相关 和 性 研究 


在 陕西 省 的 半 坡 和 姜 寨 两 个 距 今 约 6000 年 的 仰韶 文化 遗址 的 陶器 上 ,都 曾 发 现 一 些 
刻 划 符号 (简称 刻 符 ), 王 志俊 (1980) 统 计 共 计 约 42 种 243 个 符号 。 有 一 种 意见 认为 这 些 
刻 符 是 后 期 文字 的 雏形 。 文 字 作为 信息 的 载体 ,人 们 交流 的 工具 , 它 应 该 为 相当 广泛 的 
地 区 的 人 们 所 共同 使 用 。 因 此 如 果 某 些 字 词 在 该 地 区 的 某 一 地 点 为 常用 字 词 ,那么 这 些 
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字 词 在 该 地 区 的 另外 地 点 也 应 被 经 常 使 用 。 反 过 来 那些 不 常用 的 字 词 符号 在 这 一 地 区 
的 不 同 地 点 也 应 是 共同 的 。 如 果 这 两 个 仰韶 文化 遗址 出 现 的 刻 符 属 文字 的 雏形 ,它们 也 
应 表现 出 这 种 性 质 , 某 些 刻 符 在 半 坡 是 常用 刻 符 ,其 出 现 的 频率 高 ,它们 在 姜 寨 的 出 现 频 
率 也 应 高 。 反 之 亦 然 。 我 们 用 X; 与 了 分 别 表示 第 i 种 刻 符 在 半 坡 和 姜 寨 出 现 的 频率 。 下 
表 列 出 王 志 俊 统计 的 两 地 刻 符 的 种 类 和 数量 ,以 及 我 们 依 此 计算 出 的 相应 频率 。 


表 9-3 半 坡 和 姜 察 遗址 的 陶器 上 各 类 刻画 符号 的 数量 和 频率 统计 
半 坡 
频率 Xi % 频率 Xi% 
57.52 不 计 
3.54 8.33 
0.88 2.08 
7.96 18.75 
1.77 4.17 
0.88 2.08 
3.54 8.33 
2.65 6.25 
0.88 2.08 
3.54 
3.54 
5.31 


БЫ 
іі 


~J 
кю 


1.54 
1.54 
1.54 
9 种 刻 符 9x0 
20 种 刻 符 20x0.77 
总 计 


олај |р | [м || 
кю | го [осоо | || |м | | лр | 


利用 上 面 表 中 的 数据 ,公式 (9-10) 给 出 这 42 种 刻 符 在 两 地 出 现 的 频率 (X, У.) 之 间 
的 相关 系数 = 0.989, 相 关 性 极 高 。 如 果 考 虑 到 刻 符 “1” 出现 的 频率 太 高 ,相关 分 析 中 占 
的 比重 太 大 。 而 且 刻 符 “1” 有 时 与 陶器 上 偶尔 产生 的 划 痕 不 易 分 清 。 因 此 把 刻 符 “1” 含 弃 ， 
重新 计算 其 他 41 种 刻 符 出 现 的 频率 ,再 作 相 关 分 析 , 得 到 相关 系数 = 0.67。 利 用 公式 
(9-11) ,计算 得 到 ; = 5.64。 已 知 自由 度 为 (41-2) = 39, 查 : 表 , 得 io00(n = 39) = 3.56, 
小 于 样本 的 计算 值 ; = 5.64。 因 此 可 以 以 极 高 的 置信 和 度 (a < 0.001) 判断 , 这 些 刻 符 在 两 
地 的 出 现 频 率 之 间 是 高 度 相关 的 , 半 坡 和 姜 寨 的 常用 刻 符 和 偶 用 刻 符 是 基本 相同 的 。 因 
此 两 地 刻 符 出 现 频率 的 相关 分 析 支 持 这 些 刻 符 具有 “ 字 词 的 使 用 频率 在 该 文字 系统 的 地 
区 的 各 地 点 间 存 在 相关 性 ”性 质 的 观点 。 当 然 这 里 的 讨论 仅 限于 刻 符 具 有 文字 某 种 性 
质 ,至 于 仰韶 陶器 上 的 刻 符 是 否 真 为 文字 的 雏形 ,不 属于 本 书 讨论 的 范围 。 

顺便 提 及 , 半 坡 和 姜 寨 相距 仅 30 公里 ,在 离 两 地 约 100 公里 的 另 一 个 你 韶 遗 址 一 一 
李 家 沟 遗 址 的 陶器 上 也 发 现 了 相似 的 刻画 符号 ,相关 分 析 表 明 这 些 刻 符 的 出 现 频率 在 李 
家 沟 与 半 坡 两 地 的 之 间 也 是 相关 的 。 


9.3.2 赤峰 地 区 中 美 联 合 考古 调查 中 对 稀疏 分 布 的 陶 片 的 相关 性 分 析 
Ж 8.4 节 中 我 们 曾 介绍 了 赤峰 中 美 联 合 考古 调查 项 目的 例子 ,该 项 目的 研究 者 们 认 


10 ”定量 考古 学 


为 ,282 个 采集 陶 片 数 少 于 5 片 的 采集 点 (他 们 称 为 “小 采集 ") 是 有 考古 意义 的 ,这 些 稀疏 
散布 的 各 时 期 陶 片 不 是 近期 农业 活动 所 致 。 他 们 的 依据 是 一 元 方差 分 析 和 子弹 形 图 所 
显示 的 各 时 期 小 采集 陶 片 比例 数 的 差异 。 本 节 将 介绍 他 们 用 相关 分 析 来 佐证 这 个 观点 。 
如 果 陶 片 稀 朴 散布 的 小 采集 点 的 存在 是 近代 为 肥田 而 堆肥 和 土壤 搬运 所 致 ,那么 小 采集 
中 辽 代 等 晚期 陶 片 的 比重 应 当 超过 大 采集 的 。 对 1633 个 陶 片 采集 点 的 两 个 变量 , 即 采集 
点 各 时 期 的 总 陶 片 数 (X) 和 晚期 陶 片 的 比例 数 (Y) 作 相 关 分 析 ,得 到 显著 性 水 平 a = 0. 
079 和 相关 系数 + = 0.043。 反 映 采集 的 大 小 和 晚期 陶 片 的 比重 间 的 相关 强度 是 非常 弱 的 
(r = 0.043)。 虽 然 表 现 出 一 定 的 显著 性 水 平 (ec = 0.079) ,但 那 是 由 于 样本 容量 其 大 (nn = 
1633) 所 导致 的 结果 ,9.2.2 小 节 中 曾 提 到 对 于 大 样本 ,很 弱 的 相关 关系 也 能 被 检验 出 来 。 
因此 相关 分 析 支 持 Х ЯП Y 不 相关 的 原 假设 , 即 不 支持 稀 玖 散布 的 陶 片 是 近代 农业 活动 所 
致 的 意见 。 

赤峰 考古 调查 的 研究 者 们 又 从 另 一 个 角度 探讨 了 小 采集 点 存在 的 原因 。 如 果 它 们 是 
近期 农业 活动 的 结果 ,那么 在 现代 村 落 附 近 小 采集 点 的 密度 应 增 大 。 也 就 是 说 对 不 同时 
期 而 言 ,小 采集 点 在 总 采集 点 中 所 占 百 分 比 (X) 与 同时 期 在 现代 村 落 附近 的 采集 点 在 总 
采集 点 中 所 占 的 百分比 (Y) 之 间 应 有 和 较 显著 的 相关 关系 ,但 实际 上 ,在 排除 了 兴隆 洼 , 赵 
宝 沟 和 小 河沿 等 采集 到 陶 片 数 很 少 的 时 期 后 ,对 于 从 红 山 文化 、 夏 家 店 上 层 和 下 层 ,战国 
至 汉 ,到 辽 代 各 时 期 上 面 两 个 百分比 值 之 间 的 相关 系数 为 0.103, 而 显著 性 水 平 a = 
0.870( 原 研究 者 计算 的 是 斯 皮尔 曼 相 关系 数 , 用 以 替代 了 本 章 讨论 的 皮尔 逊 相关 系数 ,我 
们 将 在 第 十 一 章 介 绍 斯 皮尔 曼 相 关系 数 ,但 在 所 讨论 的 例子 中 这 个 替代 不 影响 后 面 的 推 
论 ), 因 此 可 以 以 相当 高 的 置信 和 度 接受 和 Y 不 相关 的 原 假设 , 即 不 支持 近代 农业 活动 “ 生 
成 "小 采集 点 的 可 能 。 两 方面 作 相关 分 析 的 结论 是 一 致 的 ,并 符合 8.4 节 一 元 方差 分 析 比 
较 各 时 期 小 采集 点 比例 数 所 得 的 结论 。 

赤峰 考古 调查 资料 的 研究 显示 了 相关 分 析 怎 样 帮助 检验 近代 农业 活动 是 否 是 导致 
小 采集 点 形成 的 原因 。 顺 便 提 及 , 除 本 小 节 和 8.4 节 所 介绍 的 内 容 外 ,赤峰 考古 调查 的 
研究 者 们 还 对 小 采集 点 作 了 其 他 定量 方法 的 分 析 与 验证 ,其 目的 是 探讨 在 考古 调查 中 人 怎 
样 正 确定 义 “ 遗 址 "这 个 似乎 “不 言 而 喻 ”的 概念 ,重申 了 反对 以 “遗物 "来 替代 “遗址 "的 观 
点 。 当 然 关 于 这 个 在 考古 学 研究 中 重要 但 又 有 争议 的 概念 的 详细 讨论 ,是 超出 本 书 的 范 
围 和 作者 的 能 力 的 。 


93.3 相关 分 析 考 古 应 用 的 其 他 实例 简介 


7.4.4 节 曾 介绍 吴 十 洲 (2001) 对 两 周 时 期 386 座 墓葬 中 青铜 容器 的 数量 和 组 合 关 系 
的 统计 研究 工作 。 除 了 7.4.4 节 中 使 用 的 一 元 方差 分 析 方 法 外 , 吴 还 计算 了 两 周 各 时 期 
董 葬 中 青铜 鼎 数 量 和 其 他 青铜 容器 数量 间 的 相关 系数 。 这 些 相 关系 数 都 是 正 值 ,处 于 r 
= 0.41 5 0.92 间 。 说 明 各 时 期 总 体 上 幕 匡 中 如 果 瞻 的 数量 多 , 则 其 他 青铜 容器 的 数量 也 
多 ,但 是 各 期 的 相关 强度 有 差别 。 由 此 吴 十 洲 认为 “电位 居于 两 周 幕 菇 随葬 青铜 容器 的 
中 心地 位 ,应 继续 予以 肯定 ”, 但 “时 与 鼎 的 配置 关系 并 不 是 一 贯 的 ,确定 的 ,随时 代 不 同 
而 出 现 不 同 的 以 易 为 主 的 青铜 容器 配置 关系 ,或 不 以 易 为 主 的 青铜 容器 配置 关系 "。 除 
吴 十 洲 的 工作 外 , 米 同 乐 等 (1998) 对 有 胡 铜 戈 进行 了 回归 断代 。 他 们 测量 或 整理 了 晚 商 、 
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西周 .春秋 和 战国 等 4 个 时 代 124 件 铜 戈 的 援 长 . 胡 长 和 内 长 数据 ,根据 这 3 个 变量 建立 
了 一 个 三 元 二 次 的 回归 方程 用 以 预测 未 知 出 处 铜 戈 的 年 代 。 据 报道 预测 结果 基本 正确 。 
监 于 三 元 二 次 回归 方程 已 超出 本 书 的 范围 ,我们 不 作 详细 介绍 。 米 同 乐 等 认为 回归 分 析 
用 于 考古 各 类 器 物 的 断代 有 一 定 应 用 前 景 。 


94 线性 相关 和 线性 回归 分 析 中 的 一 些 问 题 


9.4.1 相关 与 回归 分 析 的 比较 


相关 分 析 和 回归 分 析 都 是 研究 一 对 随机 变量 间 的 非 确定 性 关系 ,本 书 仅 考虑 随机 变 
量 间 的 线性 关系 。 但 是 相关 分 析 和 回归 分 析 研 究 问题 的 角度 是 有 所 不 同 的 。 前 者 关注 
于 两 个 变量 间 关 系 的 密切 程度 , 即 相关 程度 的 强 弱 .能 和 否 通过 显著 性 检验 等 ,这 里 两 个 变 
量 是 平等 的 。 后 者 更 注重 两 个 变量 间 的 因果 关系 ,因而 区 分 自 变量 和 应 变量 ,希望 在 建 
立 线 性 回归 方程 后 通过 自 变量 来 预测 应 变量 。 另 一 方面 相关 分 析 和 回归 分 析 又 是 紧密 
相连 的 ,只 有 当 一 对 随机 变量 高 度 相关 时 ,建立 回归 方程 进行 预测 才 有 意义 ,预测 才 较 为 
精确 可 靠 。 一 般 情况 下 相关 分 析 比 回归 分 析 在 考古 研究 中 得 到 更 为 广泛 的 应 用 。 前 面 
对 仰韶 的 刻 符 、 赤 峰 地 区 各 时 期 陶 片 数 量 的 分 析 以 及 两 周 幕 葬 青铜 易 和 其 他 青铜 容器 的 
数量 分 析 均 属相 关 分 析 的 例子 ,而 关于 遗址 中 A 型 彩陶 残片 的 密度 随和 遗址 距离 分 布 的 研 
究 和 对 有 胡 铜 区 的 断代 则 属 回 归 分 析 。 


9.4.2 相关 和 回归 分 析 的 应 用 条 件 


线性 回归 分 析 的 应 用 有 一 些 前 提 条 件 。 它 要 求 各 У, 相互 独立 ,它们 的 平均 值 聚集 
在 一 条 直线 的 左右 ,它们 的 方差 一 致 性 等 ,这 里 不 作 详 细 讨 论 。 但 在 进行 回归 分 析 前 要 
先 观察 实验 数据 的 散 点 图 ,考虑 是 否 适 宜 做 线性 回归 。 最 理想 的 情况 是 数据 点 分 布 在 一 
个 拉 长 了 的 椭圆 的 范围 中 。 对 于 图 9-1a、9-1c 等 的 分 布 情况 是 不 宜 作 线 性 回归 分 析 的 。 
有 时 实验 点 X; 与 了; 间 呈 抛物 线 关系 或 指数 函数 关系 ,这 种 情况 需要 先 做 变量 转换 ,然后 
Xf X WY R X 5 log Y 作 线 性 回归 分 析 。 

在 相关 分 析 和 回归 分 析 时 ,一 定 要 特别 注意 散 点 图 上 有 没有 偏离 群体 甚 远 的 特殊 
点 ,它们 有 可 能 显著 改变 回归 直线 的 参数 。 图 9-5 是 这 样 一 个 例子 ,右上 角 的 S 点 是 一 个 
特殊 点 ,其 余 的 6 个 点 组 成 负 相 关 ,而 由 于 8 点 的 参加 ,使 得 它们 共同 组 成 正 相 关 。 在 分 
析 仰 韶 刻 符 的 例子 中 ,舍弃 了 刻 符 “1”, 也 是 因为 它 出 现 的 频率 比 其 他 刻 符 的 频率 高 出 10 
多 倍 , 属 于 特殊 数据 。 很 多 情况 下 特殊 数据 的 出 现 是 测量 错误 或 记录 错误 的 结果 , 但 有 
时 特殊 数据 却 反映 某 种 特殊 的 ,应 引起 注意 的 现象 。 总 之 对 线性 回归 中 的 特殊 数据 应 该 
认真 检查 ,决定 取舍 。 
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9-5 一 组 不 适宜 于 回归 分 析 的 数据 ,特殊 点 
S$ 将 显著 改变 回归 参数 


9.4.3 回归 方程 的 稳定 性 和 预测 的 误差 * 


9.2 节 的 讨论 中 见 到 回归 分 析 中 有 残 差 存 在 。 残 差 平方 和 DOY, -了 ,)? 服 从 自由 度 
为 (n - 2) 的 ү 分 布 。 残 差 平方 和 的 平均 值 的 开 方 被 定义 为 剩余 标准 差 或 残余 标准 差 : 


| -YE 
$ = 2100-07 (9-13) 


剩余 标准 差 * 是 一 个 很 重要 的 统计 量 , 它 度量 实验 点 相对 于 回归 直线 的 “平均 偏离 ”, 它 的 
数值 决定 回归 直线 的 稳定 性 和 预测 的 误差 。 

所 谓 回 归 直 线 的 稳定 性 是 这 样 理解 的 ,设想 在 同一 个 总 体 中 另外 抽取 п 对 数据 (Х;, 
Y) ,利用 新 样本 也 可 以 建立 一 条 新 的 回归 直线 Ý = bX +a 我 们 当然 要 关注 两 条 回归 
直线 的 参数 a' ,5' 与 a,b 之 间 的 变动 有 多 大 ,也 就 是 关注 回归 直线 的 稳定 性 有 多 高 。a 与 
5 也 是 随机 变量 ,它们 的 涨 落 用 它们 自己 的 标准 差 s。 Ж, 来 表述 和 度量 .可 以 用 下 面 的 公 
式 来 计算 Sa 和 БОЕ 


y2 y2 

Sa = 1 xX = 1 + 2 (9-14) 
п У! (Х;- Хх)? п хх 

s, = = (9-15) 


这 两 个 公式 表明 , 剩余 标准 差 s 直接 决定 了 ss。 和 ss 的 大 小 。 而 在 s 不 变 的 情况 下 ,实验 点 
越 多 (n 大 和 内 积 系数 ,大 ) 和 自 变量 的 变动 范围 越 大 , 则 5, 和 ss 越 小 ,回归 直线 的 稳定 
性 也 越 高 。 

回归 分 析 的 目的 之 一 是 给 定 来 预测 Yo, Yo 的 标准 差 sy 由 回归 分 析 的 残余 标准 差 
s ЖП а,Ь 的 误差 共同 导致 , 其 计算 公式 如 下 : 


Xo - X} 
зт ер (9-16) 


хх 
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可 以 四 出 ,预测 的 精确 度 除 与 实验 点 的 多 少 有 关外 , 还 与 Z 的 位 置 有 关 。 当 X 接近 平均 
值 天 时 ,预测 的 精确 度 最 高 ,而 当 Х 不 断 偏离 下 时 ,预测 的 误差 也 不 断 增 大 。 因 此 当 回归 
直线 确定 后 , 内 揪 的 预测 误差 小 , 而 外 推 的 预测 是 相当 危险 的 ,可 能 会 导致 很 显著 的 
误差 。 

9.4.4 关于 多 元 情况 下 的 线性 回归 问题 


本 章 仅 考虑 了 一 元 的 情况 , 即 Y 仪 依赖 于 一 个 自 变量 X。 当 Y 依赖 于 若干 个 自 变量 
(Xi,X2,X3,"…) 时 ,情况 就 要 复杂 得 多 。 当 然 在 数学 上 我 们 可 以 不 考虑 其 他 自 变 量 对 了 
的 影响 ,而 只 考虑 了 与 其 中 一 个 自 变量 X, 的 关系 , 求 它们 之 间 的 相关 系数 。 这 个 相关 系数 
称 为 了 对 某 个 自 变 量 的 简单 相关 系数 。 但 简单 相关 系数 已 不 像 一 元 情况 那样 能 确定 地 反 
映 了 与 X; 之 间 的 真实 关系 , 它 可 能 受到 其 他 自 变 量 的 影响 .需要 在 控制 其 他 变量 的 条 件 
下 求 了 与 各 个 自 变量 间 的 相关 系数 , 称 为 偏 相 关系 数 。 偏 相关 系数 才 比 较真 实地 反映 变 
量 间 的 关系 。 此 外 也 需要 考虑 自 变 量 之 间 的 关系 。 当 然 这 些 内 容 已 超出 本 书 的 范围 ,这 
里 仅 是 提醒 读者 注意 这 类 问题 ,读者 在 有 需要 时 可 查看 有 关 多 元 回归 分 析 的 书籍 。 
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第 五 章 至 第 九 章 主要 讨论 数值 型 的 变量 ,研究 实体 相对 于 数值 变量 的 分 布 ,比较 样 
本 所 属 总 体 间 平均 值 是 否 有 差别 等 。 第 九 章 又 介绍 了 两 个 数值 变量 之 间 的 相关 问题 。 
本 章 将 主要 讨论 名 称 变量 之 间 关 联 的 研究 。 相 关 和 关联 都 是 涉及 变量 之 间 关 系 的 研究 ， 
但 因为 变量 的 层次 不 同 ,所 用 的 数学 方法 不 同 ,也 用 了 不 同 的 名 称 。 相 关 和 关联 分 别 是 
从 英语 的 correlation 和 association 两 个 词 翻译 过 来 的 。 本 章 的 最 后 一 节 将 讨论 实体 按 单个 
名 称 变量 分 布 的 假设 检验 。 


10.1 2x2 四 格 交叉 列 联 表 的 у 检验 


10.1.1 名 称 变 量 间 关联 x? 检验 的 原理 和 过 程 


首先 讨论 名 称 变量 中 最 简单 的 情况 , 即 二 元 变量 闻 的 关联 问题 。 第 八 章 8.3 节 曾 根 
据 两 个 墓地 中 带 或 不 带 随 葬 品 的 墓葬 数目 的 统计 ,检验 总 体 上 两 墓地 带 随葬 品 幕 的 比例 
数 间 是 和 否 有 差别 。8 .3 节 中 的 数据 列表 表示 如 下 : 


表 10-1 ЖТЖ АРАЗ ВОЗА Э 
вияв | жена | 
乙 地 的 医药 数 35 15 
这 种 类 型 的 表格 称 为 “2 x2 ЭШ” ,也 称 四 格 表 。 表 的 第 一 列 和 第 一 行 分 别 表示 两 个 名 称 
变量 的 名 称 和 它们 的 两 个 取 值 状态 , 即 董 蔡 的 所 在 地 和 是 否 带 随葬 品 。 表 格 的 主体 是 右 下 
部 的 2 行 2 列 共 4 格 ,记录 了 甲乙 两 地 、 带 或 不 带 随葬 品 4 种 交叉 状态 的 实体 数目 ,因此 列 
联 表 又 称 为 实体 交叉 分 类 频次 表 。8.3 节 是 检验 两 个 摹 地 中 带 随 葬 品 的 墓葬 的 比例 数 是 否 
一 致 。 比 例 数 是 数值 型 变量 ,因此 8.3 节 进 行 的 是 参数 的 假设 检验 。 但 也 可 以 从 另外 一 个 
角度 提出 问题 ,将 全 部 150 座 幕 莫 看 成 从 一 个 单一 总 体 中 抽取 的 样本 ，“ 幕 莫 所 在 地 ”和 “是 
否 带 随葬 品 " 是 描述 每 个 墓葬 的 两 个 属性 。 当 然 这 是 两 个 二 元 的 名 称 属 性 ,每 个 属性 只 有 
两 个 被 允许 的 取 值 。 现 在 要 根据 这 个 样本 来 检验 ,对 于 总 体 而 言 “ 蔓 奉 所 在 地 "与 “墓葬 是 否 
带 随葬 品 " 这 两 个 变量 间 是 否 有 关联 。 在 回答 这 个 问题 前 ,我 们 先 把 表 10-1 改写 如 下 : 
表 10-2 ”两 医 地 中 带 或 不 带 随葬 品 的 歼 萝 数 统计 表 的 改写 
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ж 10-2 比 表 10-1 添加 了 1 行 1 列 。 在 添加 的 最 后 一 行 ( 列 ) 列 出 每 列 ( 行 ) 元 素 的 总 
和 ,也 称 列 ( 行 ) 变 量 的 边缘 和 或 边缘 分 布 。 甲 ( 乙 ) 莫 地 的 医药 总 数 为 100(50) , 带 ( 不 带 ) 
БЕЗЕ ип Н) Ж 36 0020) 95055) 

名 称 变量 间 关 联 问题 是 用 统计 量 у? 来 检验 的 。 检 验 的 步骤 与 前 几 章 数值 变量 的 假 
设 检 验 是 相似 的 。 检 验 过 程 如 下 : 

(1) 第 一 步 先 提出 原 假设 本 :假设 “墓葬 是 否 带 随葬 品 ” 与 “墓葬 所 在 地 "两 个 变量 间 
没有 关联 ;相应 的 备 择 假设 Н, 为 :这 两 个 变量 间 存 在 关联 。 

(2) 第 二 步 是 在 原 假设 Но 成 立 的 前 提 下 ,计算 两 个 变量 交叉 取 值 的 4 种 状态 的 摹 莫 
ЖЕНЕ. ЖЕ h P АУ БЕЗЕ ип H Ж ЗЕ ЖОН АЛ Н (Н, ЕЛІ КАР “ТУ БИЗЕ пй ЖЕН 8, 


ж” ИЕР АЕ НЬ Т О НИЛ” ЭЖЕЙИ, Вр 95 х O —63.3, ШЖ 


100 + 50 
地 甲 不 带 随葬 品 医 茸 数 的 期 望 值 应 为 55 x 二 ~ 一 = 36.7。 同 样 可 以 计算 墓地 乙 带 和 不 


TE 5% 


ТЕЗ ТРГО МЕНЕ. 354 个 期 望 值 用 Е, 表示 , 列 人 表 10-3 中 。 
表 10-3 “无 关联 "假设 前 提 下 墓葬 交叉 分 类 的 期 望 频次 表 


用 0, 表示 四 格 表 10-2 中 第 i 格 的 实际 观测 值 。 可 以 证 明 统计 量 : 


- 2 
ү? — > (0; =E) (10-1) 
服从 六 分 布 , 其 自由 度 为 : 
df = ( 行 数 - 1) х ( 列 数 - 1) (10-2) 
(60 - 63.3)? (40 - 36.7)2 (35 – 31.7)2 (15 – 18.3)? 
435 


四 格 表 的 自由 度 为 (2-1)x(2-1)=1。 自 由 度 是 等 于 能 自由 赋值 的 单元 格 的 数目 。 在 
所 研究 的 例子 中 ,两 地 的 幕 匡 总 数 和 带 或 不 带 随 匡 品 的 墓葬 数 都 是 固定 的 ,因此 4 个 单 
元 格 中 只 允许 对 一 个 单元 格 自由 赋值 。 一 个 单元 格 赋值 后 ,其 他 3 个 单元 格 的 值 就 自动 
被 确定 了 ,因此 自由 度 等 于 1。- 

(з) 第 三 步 进行 判断 , 查 自由 度 为 1 的 x? 表 , 对 应 于 x* = 1.435 的 显著 性 水 平 是 
0.23。 这 个 x? 检验 的 意义 是 :对 于 一 个 假想 的 , 幕 葛 所 在 地 和 是 否 带 随 苦 品 完全 无 关 的 总 
体 ,随机 抽取 150 座 墓葬 ,那么 有 23% 的 概率 抽样 到 一 个 如 表 10-1 所 示 那 样 偏离 期 望 值 
或 偏离 更 大 的 样本 。 因 此 在 显著 性 = 0.2 的 水 平 上 不 能 拒绝 “墓葬 是 否 带 随葬 品 与 董 地 
间 无 关联 ”的 假设 ,回忆 第 八 章 的 8.3 节 曾 对 表 10-1 所 示 的 样本 ,用 二 项 式 分 布 检验 两 类 
幕 项 的 比例 数 是 否 有 显著 差别 ,计算 了 统计 量 Z ,得 到 Z = 1.2, 查 正 态 分 布 表 得 到 的 显 
著 性 水 平 a 也 是 0.23 ,接受 了 两 地 带 随 茸 品 墓 芋 的 比例 数 无 差别 的 原 假设 。 两 种 检验 的 
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角度 不 一 样 ,方法 不 一 样 ,但 检验 的 结果 是 一 致 的 。 
对 于 2x2 的 四 格 表 ,也 可 以 用 另 一 种 较 简 便 的 方法 计算 x? 值 。 把 表 10-1 写成 一 般 
Жж: 
表 10-4 四 格 表 的 一 般 形 式 


Ү( +) N(-) 
А( +) а | Ь 
В(-) с а 


у 也 可 由 下 面 的 公式 计算 得 到 : 
2 _ n(ad – ьс)? 
X = (а + )( + а) (а + с) (с + а) 


式 中 的 n= (a + 6+ с + 4d), 代 表 总 的 实体 观测 数 。 对 于 四 格 表 , 公 式 (10-1) 和 (10-3) 是 
等 效 的 ,对 上 述 的 实例 验算 如 下 ,将 a = 60, b = 40, с = 35514 = 15 代 入 式 (10-3), 得 
到 : 


(10-3) 


2 150(60 x 15 — 40 x 35) _ 1.435 
Х = (60 + 40) (40 + 15)(60 + 35)(35+15) = 


可 见 两 个 公式 计算 的 结果 是 一 致 的 。 
10.1.2 样品 的 容量 对 x? 检验 的 影响 


本 小 节 将 讨论 四 格 表 x? 检验 中 的 两 个 重要 的 问题 。(1) 四 格 表 x? 检验 的 结论 仅仅 
涉及 两 个 名 称 变量 之 间 是 否 有 关联 ,并 不 能 给 出 关联 的 强度 有 多 大 。(2) 当 4 个 单元 格 的 
数值 按 相同 的 比例 增加 时 , x? 值 也 将 按 同 样 的 比例 增加 。 这 从 公式 (10-3) 可 以 清楚 地 看 
出 ,因为 分 子 的 因 次 是 单元 格 数值 的 5 次 方 ,而 分 母 只 是 4 次 方 。 四 格 表 的 自由 度 是 不 变 
的 ,由 此 у^ 值 的 增 大 会 使 检验 的 显著 性 升 高 ,并 有 可 能 会 改变 假设 检验 的 结论 。 下 面 我 
们 把 表 10-2 中 每 个 单元 格 的 频次 值 增加 4 倍 , 总 的 墓葬 数 也 从 表 10-2 中 的 150 座 增加 为 
600 座 。 对 于 扩大 了 容量 的 样本 ,其 四 格 表 如 下 : 


表 10-5 


将 表 10-5 的 数据 代入 公式 (10-3) ,计算 得 到 у? = 5.741, 正 好 是 原来 对 表 10-2 计算 
的 уг = 1.435 的 4 倍 。 对 表 10-5 数 据 作 x? 检 验 ,自由 度 仍 是 1, 查 x? 表 ,相应 的 显著 性 水 
Жа = 0.0166. 因此 可 以 以 98.3% 的 置信 和 度 拒绝 “医药 是 否 带 随 蕴 品 与 墓地 没有 关联 "的 
原 假设 ,而 接受 这 两 个 变量 之 间 是 关联 的 备 择 假设 。 这 看 上 去 似乎 与 10.1.1 中 的 检验 结 
论 是 矛盾 的 。 两 个 样本 带 随葬 品 墓 莫 数 的 百分比 是 相等 的 ,都 等 于 


гї 60 _240_ 
甲 墓地 带 随 匡 品 墓葬 数 的 百分比 100=400= 60% 
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=] 35 _ 140 _ 
乙 莫 地 带 随葬 品 幕 匡 数 的 百分比 50 = 200 = 70% 


ы ; 95 _ 380 _ 
两 墓地 带 随 厘 品 墓 草 数 的 平均 百分比 ”如 = 380 - 63,3% 


但 根据 这 两 个 样本 对 总 体 的 “墓葬 是 否 带 随 茸 品 与 墓地 间 是 否 有 关联 ”的 判断 却 是 
不 一 致 的 。 小 容量 样本 所 未 能 检验 出 的 关联 ,在 大 容量 样本 的 情况 下 却 被 检验 发 现 , 即 
大 样本 对 于 发 现 弱 的 关联 更 敏感 。 在 第 八 章 讨论 总 体 比 例 数 的 检验 时 ,也 曾 专门 讨论 了 
样本 的 容量 对 检验 结论 的 影响 。 为 了 显示 这 个 影响 ,下 面 按 8.3 节 中 正 态 分 布 U 检验 
的 方法 ,根据 表 (10-5) 的 数据 ,对 甲乙 两 墓地 带 随葬 品 幕 莫 的 总 体 比 例 数 是 否 一 致 作 


检验 ,利用 公式 (83), 求 得 = (0-63 х 0.367 x 4004200 - 0.0418， 从 而 ， 
2 - | (рі — p2) 一 (рі - Рз) | 一 | (0.6 - 0.7) - (01 = 2.40。 查 正 态 函 数 表 ,显著 性 水 


spp 0.0418 
Æ а = 0.0166。 因 而 同样 以 98.3 % 的 置信 度 拒绝 “两 医 地 带 随 药品 墓 茸 的 比例 数 无 显著 
差别 ”的 原 假设 ,回忆 在 8.3 中 对 表 (10-2) 的 数据 ,墓葬 总 数 为 150 时 ,也 曾经 在 a = 0.23 
的 显著 性 水 平 上 接受 “两 墓地 带 随葬 品 幕 莫 的 比例 数 无 显著 差别 ”的 假设 。 因 此 无 论 对 于 
从 检 验 ,或 者 对 于 利用 正 态 分 布 的 过 检 验 ,都 是 当 样 本 容量 增加 时 ,对 于 发 现 弱 的 关联 更 
敏感 ,关联 更 易 被 检 出 ,在 第 九 章 利用 公式 (9-11) 作 两 个 数值 变量 相关 性 的 显著 性 检验 
时 ,也 同样 观察 到 样本 的 容量 对 假设 检验 的 影响 。 因 此 第 九 章 曾 强调 要 “同时 关注 相关 性 
检验 的 置信 和 度 和 相关 系数 r 本 身 的 大 小 两 个 方面 ,相关 系数 反映 了 相关 关系 的 强 弱 。 在 
讨论 名 称 变量 之 间 的 关联 时 , 除 注意 x? 检验 给 出 的 接受 或 拒绝 关联 假设 的 置信 和 度 外 ,也 
应 该 寻找 一 个 相应 的 统计 量 来 反映 关联 的 强 弱 。 这 里 同样 需要 同时 关注 接受 或 拒绝 关 
联 的 置信 度 和 关联 本 身 的 强度 。 以 相当 高 的 置信 和 度 检 验 出 很 弱 的 关联 往往 是 没有 实际 


10.1.3 名 称 变量 间 关 联 强 弱 的 度量 


表征 名 称 变量 间 关 联 强 弱 的 统计 量 有 多 系数 和 Yule 0 系数 。 现 分 别 予 以 介绍 。 
(一 ) 多 系数 。 
为 了 寻找 反映 关联 强 弱 的 统计 量 , 考虑 到 x? 值 是 正比 于 样本 的 容量 n 的 , 很 自然 会 


想到 用 
2 
Ф = (Е (10-4) 


作为 关联 强 弱 的 度量 ,这 样 定义 的 #5 系数 是 与 样本 的 容量 n 无关 的 。 利 用 公式 (10-2)， 
得 到 


| (аа- к) _ | а4- bc | 

n (а + b)(b + 4)(а +c)(c+d)  Y(a+b)lb+ а) (а + «(са а) 
(10-5) 

希腊 字母 $ 读 作 “phi”。 对 于 两 个 二 元 变量 的 四 格 表 。#$ 是 在 0 与 1 之 间 变 动 ,$ = 1 表示 

两 个 名 称 变量 间 的 完全 关联 ,% = 0 表示 两 个 变量 间 不 存在 关联 。 对 于 表 10-2 RÆ 10-5 
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所 列 的 样本 数据 ,计算 得 到 它们 的 $ 值 分 别 为 \/ 32 = 0.098 和 \/ STT = 0.098, 即 丙 


组 数据 的 关联 强度 是 相等 的 ,而且 关联 是 很 弱 的 。 在 四 格 表 中 a 代表 两 属性 联合 取 正 值 
的 实体 数 ,d 代表 两 属性 联合 取 负 值 的 实体 数 ,因此 a х 4 反映 两 个 属性 间 的 正 协 变 ,而 
x d 反映 两 个 属性 间 的 负 协 变 。 公式 (10-5) 中 的 分 子 是 正 \、 负 协 变 的 差 值 。 

(Z) Yule’s Qo 

除 乡 外 ,也 常用 另 一 个 称 为 Yule’ s Q 的 系数 来 表示 四 格 表 关 联 的 强 弱 ,Q 是 这 样 定 
义 的 : 

0 = шү (10-6) 

公式 (10-6) 中 分 式 的 分 子 也 是 正 、 负 协 变 的 差 ,而 其 分 母 为 正 ` 负 协 变 的 和 。0 的 绝对 值 与 
$ 相似 ,也 是 在 0 与 1 之 间 变 动 ,但 0 可 正 可 负 , 相 应 表示 正 关联 和 人 负 关 联 。 同 样 ,0 =+1Ж 
示 两 个 名 称 变量 间 的 完全 关联 ,Q = 0 表示 两 个 变量 间 不 存在 关联 。 在 下 一 章 的 11.2 节 可 
以 看 到 0 系数 是 Сатта 等 级 相关 系数 的 一 种 特殊 情况 。 对 于 表 10-2 或 表 10-5 的 数据 , 利 


、 60 х 15 – 40 х 35 ке 
用 公式 (10-6) 计算 得 到 , О 都 是 等 于 50 yx 15T 40 x35 = 0.217 ,同样 说 明 关 联 是 较 弱 的 。 


g 与 0 也 有 一 些 不 同 之 处 ,一 般 来 说 1 Q 1 > p ,因此 更 易 观 察 到 弱 的 关联 。 另 外 对 $ 而 言 ， 
必须 a жа 均 为 0, 或 5 和 c 均 为 0,$ 才 等 于 1, 才 判断 为 完全 关联 。 但 是 对 于 О, RX а. 
6b、c, 或 d 中 的 任意 一 个 为 0, 8 就 等 于 1, 判 断 为 完全 关联 ,一 般 情况 下 可 随意 选取 $8 或 0 
度量 关联 强度 ,但 当 有 的 单元 格 中 的 频次 数 很 低 时 ,需要 根据 所 研究 的 实际 问题 考虑 选 
哪个 系数 更 合适 。 

在 本 小 节 的 最 后 ,再 次 强调 ,对 于 四 格 列 联 表 检 验 结果 的 表述 ,应 同时 说 明 检 验 的 置 
信和 度 和 关联 的 强度 。 例 如 对 于 四 格 表 10-2 和 10-5 关于 幕 地 与 墓葬 是 和 否 带 随葬 品 间 关 联 
的 检验 结果 应 分 别 写 为 (x? = 1.435,а = 0.23,% = 0.098) 和 (x? = 5.741,0 = 0.017, 
$ = 0.098) ,或 者 写 为 (x? = 1.435,а = 0.23,0 = 0.217) 和 (x? = 5.741,a = 0.017, 
Q = 0.217) 


10.1.4 MER y 检验 的 前 提 条 件 


前 面 几 童 讨论 数值 变量 的 各 种 假设 检验 中 , 曾 十 分 注意 每 种 检验 方法 的 假设 前 提 , 例 
如 要 求 样本 服从 正太 分布 ,要 求 样本 间 的 方差 一 致 ,要 求 不 存在 偏离 群体 太 大 的 特殊 数据 
点 等 。 在 列 联 表 的 检验 中 涉及 的 是 名 称 变量 ,进入 单元 格 中 的 数据 只 能 是 频次 ,这 里 所 要 
求 的 前 提 条 件 是 样本 的 容量 要 足够 大 ,而且 要 求 每 个 单元 格 的 期 望 值 ,不 应 太 小 。 当 E; 值 
太 小 时 ,由 于 随机 涨 落 ,使 得 x? 值 波 动 大 而 判断 失误 。 至 于 具体 要 求 E 的 最 小 数值 多 大 ,在 
各 统计 学 的 书 中 并 没有 统一 的 规定 ,一 般 要 求 所 有 的 Е, 值 不 小 于 5, 应 该 是 比较 保险 的 ,有 
的 情况 下 可 放宽 条 件 ,例如 要 求 Е, 值 小 于 5 的 单元 格 的 比例 低 于 20% 。 如 果 在 实际 研究 中 
出 现 过 多 和 过 小 的 E; 或 8;, 可 以 用 费 舍 公式 来 精确 计算 相应 的 概率 值 P: 


р _ Х@е+Ә\Са + с)1(Ь + ce)!(b +d)! 
一 nla!b!e!d! 


在 计算 机 普及 以 前 , 费 舍 公式 (10-7) 的 计算 量 可 能 是 令 人 头疼 的 ,但 是 有 计算 机 的 帮助 这 


(10-7) 
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已 是 很 简单 的 工作 了 。 对 于 四 格 表 10-2 和 10-5, 公式 (10-7) 分 别 给 出 P = 0.28 和 
Р = 0.019, 稍 高 于 у 检验 的 c = 0.231 和 vc = 0.017。 


10.15 关于 x? 检验 中 的 连续 性 修正 


在 有 的 统计 书 和 统计 软件 中 ,考虑 到 2x2 列 联 表 的 格 数 太 少 ,为 减少 反映 频次 的 离 
散 型 变量 和 连续 型 变量 x? 间 的 差异 ,对 计算 x? 的 公式 (10-1) 要 作 所 谓 的 连续 性 修正 。 
修正 的 公式 如 下 : 


2 
X2 = У) CQ: -Ei 1-0.5) кы (10-8) 


对 于 四 格 表 10-2 作 连 续 性 修正 后 的 x? EX 1.037 (未 修正 的 值 为 1.435) ,对 应 的 显 
著 性 水 平 = 0.309 (未 作 修 正 时 为 a = 0.231)。 连 续 性 修正 一 定 程度 上 减少 了 因 随 机 涨 
落 引 起 的 x? 值 的 偏 大 。 对 于 四 格 表 10-5, 因 为 样本 容量 大 了 4 售 ,连续 性 修正 所 导致 的 相 
对 改变 就 要 小 得 多 ,修正 后 的 y 值 为 5.319 (未 修正 的 值 为 5.742),a 值 由 未 修正 时 的 
0.017 改变 为 0.021。 连 续 性 修正 主要 应 用 于 样本 容量 小 , Е, 和 0; 值 较 低 的 四 格 表 的 检验 。 


10.2 四 格 表 的 关联 检验 中 第 三 变量 的 引入 和 因果 关系 考察 中 的 复杂 性 


在 两 个 二 元 名 称 变量 间 的 关联 检验 中 。 如 果 在 变量 间 能 区 分 出 自 变量 和 应 变量 ,这 
就 有 可 能 进一步 作 因果 关系 的 考察 。 但 是 必须 十 分 小 心 , 因 为 有 时 候 表现 出 来 的 关联 带 
有 “假象 "的 成 分 ,关联 的 背后 可 能 有 第 三 个 变量 在 起 作用 。 下 面 分 析 两 个 具体 例子 ( 例 
子 均 引 自 S.Shennan 的 《Quantifying Archaeology?) o 

例 一 210-6 统计 了 128 座 幕 葬 , 并 按 幕 主人 的 性 别 和 墓穴 的 大 小 分 类 。 这 里 可 以 
把 幕 主 人 的 性 别 看 成 自 变 量 ,考察 墓穴 的 尺寸 是 否 依 赖 于 墓 主 人 的 性 别 ,因此 后 者 是 应 
变量 。 

Ж 10-6 128 КЕЗЕ ЗЕКЕ ЕД ТЕЛЛЕ ЛҮ Ж ЛУН Ж 
маху | Ж Хау | 


Юа (y? = 7.505,а = 0.006,% = 0.242,0 = – 0.461), ДІ 99.4% 的 置 
信和 度 判 断 董 穴 的 大 小 是 与 墓 主人 的 性 别 关联 的 ,而 且 关 联系 数 0 也 不 太 小 , 达 0.461 ,说 
明 关 联 并 非 太 弱 。 负 的 0 值 表示 男性 墓葬 的 幕 穴 大 的 比例 高 。 这 里 说 明 一 下 ,如果 把 两 列 
或 两 行 数据 交换 一 下 ,0 就 是 正 值 了 ,因此 关联 的 正 负 号 的 情况 是 与 变量 的 取 值 在 表 中 
怎样 排列 有 关 的 。 我 们 把 上 面 的 0 值 称 为 X 与 Y 间 的 零 极 关 联系 数 。 

上 面 检验 的 结论 是 墓 主 人 性 别 与 墓穴 大 小 间 有 一 定 的 关联 ,因为 把 性 别 看 成 自 变 
量 , 则 似 可 进一步 导出 优 磊 男性 和 女性 地 位 低 的 考古 学 推论 。 但 这 样 推论 是 危险 的 。 如 
果 引 和 人 幕 主 人 身高 这 个 因素 ,同时 考虑 性 别 、. 幕 穴 大 小 和 幕 主人 身高 等 3 个 变量 ,问题 就 
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复杂 化 了 。 假 设 测量 了 这 128 具 人 肯 的 高 度 ,以 155em 为 界 ,把 人 上 骨 分 成 高 和 矮 两 类 ,这 
样 样本 需 按 三 个 变量 进行 分 类 , 现 将 分 类 结果 总 结 于 表 10-7 中 。 
Ж107 ІЗЕНЕНЕИЕҒЛБЕЛНЕЛХАЛ ЖЖ, 以 墓 主 人 身高 为 控制 变量 
МЕЛ Y KEN not Y 
Ж (0) RX 17(а) 4 (b) 
& (1) 女 по X 29 (с) 6 (d) 


高 (nott) BX 5 (e) 43 (f) 


高 (nott) 女 no X 4 (g) 20 (h) 


表 (10-7) 实 际 上 是 上 下 两 个 四 格 表 ,分 别 以 身高 的 高 无 为 参数 。 现 对 高 矮 两 类 人 肯 
分 别 检验 性 别 与 墓穴 大 小 的 关系 。 结 果 如 下 : 

对 矮 的 人 骨 :( x? = 0.032,а = 0.857,9 = 0.024,0,,, = - 0.064) 

对 高 的 人 骨 :(x? = 0.57,a = 0.450,9 = 0.089,0,,; =- 0.26) 

ЕШ 0 Р хуг 和 xy 分 别 表示 在 t 的 两 个 不 同 取 值 条 件 下 计算 的 xy 间 的 0 值 。 
很 明显 当 把 人 骨 分 成 高 矮 两 类 后 再 分 别 检验 性 别 与 墓穴 大 小 的 关系 时 , 诸 уг 值 和 ОЯН 
均 很 小 , 莫 主 人 性 别 与 墓穴 大 小 间 不 存在 关联 。 因 此 前 面 不 区 分 人 骨 的 高 矮 ,根据 性 别 与 
墓穴 大 小 分 类 计算 的 x? 值 和 零 极 关联 系数 0 值 作出 的 优 莫 男 性 的 推论 是 错误 的 。 当 有 
三 个 或 更 多 的 变量 存在 ,而 且 我 们 认识 到 它们 之 间 可 能 有 复杂 的 关系 时 ,就 不 能 像 10.1 
节 中 那样 简单 地 仅 考虑 一 对 变量 之 间 的 零 级 关联 系数 ,而 必须 同时 考虑 第 三 个 变量 对 另 
两 个 变量 间 零 级 关联 系数 的 影响 ,并 在 控制 第 三 变量 条 件 下 计算 另 两 个 变量 间 的 一 级 关 
联系 数 。 例 如 对 于 这 批 幕 葬 , 当 我 们 得 到 性 别 和 墓穴 大 小 可 能 有 关联 的 推论 后 ІШ Е 
人 肯 的 高 矮 对 墓穴 的 大 小 也 可 能 有 影响 时 ,应 该 在 控制 第 三 变量 (人 骨 高 矮 ) 条 件 下 计算 
性 别 和 墓穴 大 小 间 的 一 级 关联 系数 Quy ried- FI tied - t” 表示 受 控 于 变量 i。 计算 一 级 
关联 系数 的 公式 是 : 


_ Cad + eh) – (be + fg) 
Qay, tied- = (ad + еһ) + (Бс + Је) (10-9) 


Ки (17 x 6 + 5 x 20) – (4 х 29 + 43 x 4) 
对 于 上 面 分 析 的 实例 Quid- = (7x64 5x20); (4 x29443 x4) 57 01750 


Qay нга: = — 0.175 在 数值 上 显著 小 于 未 受 人 骨 高 矮 榨 制 的 零 级 关联 系数 0, = - 0.461。 
控制 人 骨 高 矮 后 ,性别 和 墓穴 大 小 间 的 关联 变 弱 ,说明 10.1 ЕТЕНЕ АХУН 
的 零 级 关联 中 是 有 相当 的 虚假 成 分 的 。 

可 以 进一步 考察 人 肯 高 矮 (:) 和 墓穴 大 小 间 (y) 的 关系 。 重新 整理 表 10-7, 得 到 
Ж 10-8。 


Ж 10-8 128 座 幕 葬 按 莫 主 人 身高 和 墓穴 大 小 分 类 表 ,以 莫 主 人 性 别 为 控制 变量 


ж (0) 
В (nott) 
Ж (0) 
高 (пої t) 
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计算 人 骨 高 矮 和 墓穴 大 小 的 零 级 关联 ,得 (x? = 62.3,а = 0.000,% = 0.698,0,, = 
0.940)。 再 计算 控制 墓 主人 性 别 条 件 下 人 和 骨 高 矮 和 墓穴 大 小 的 一 级 关联 系数 О шы-. = 


143,29 х 20) - (3+6x 和 _ 0.935。 可 见 人 骨 高 铸 和 墓穴 大 小 间 的 零 级 和 一 


级 关联 系数 0 都 非常 大 ,而且 第 三 变量 幕 主 人 性 别 的 引 和 对 关联 系数 的 大 小 改变 不 
很 大 .同时 注意 到 x? 值 很 大 ,由 此 可 以 以 极 高 的 置信 和 度 判 断 , 人 肯 高 矮 和 医 穴 大 小 两 个 变 
量 间 存 在 非常 强 的 关联 ,而 且 它们 之 间 的 关联 基本 上 不 受 第 三 变量 一 墓 主 人 性 别 的 影 
响 。 因 而 可 以 进一步 作 因 果 关 系 的 判断 :人 上 骨 的 高 矮 决定 了 墓穴 的 大 小 。 现 在 更 清楚 地 看 
到 , 当 不 考虑 人 皮 高 矮 时 ,性 别 与 董 究 大 小 所 表现 出 来 一 定 程度 的 关联 ,实际 上 是 因为 性 
别 与 人 骨 高 矮 间 有 关联 所 导致 ,男性 人 骨 中 高 的 比例 大 。 性 别 与 墓穴 大 小 之 间 的 关联 仅 
是 表 观 的 ,不 是 实质 的 。 

В R 10-9 统计 了 212 ЖЕ, ЕЕК АЮ (г) ЕЛАВЕ ОХ) ЖИЕ ЕЕ 
有 手镯 (了 )3 个 变量 分 组 。 


Ж 10-9 212 座 莫 葬 按 更 主人 性 别 和 是 否 随 节 手 锣 分 类 ,以 墓葬 分 期 为 控制 变量 
有 手镯 (了 ) (ЗЕ Y) 


早期 (1) B(X) 31 
早期 (1) 女 ( 非 х) 


晚期 ( 非 ) B(X) | 
晚期 ( 非 1) kE X) 


希望 考察 莫 主 人 性 别 和 墓 药 中 带 不 带 手镯 之 间 是 否 有 关联 。 为 此 分 4 种 情况 计算 X 
与 了 Y 间 的 0 值 。 
全 部 墓 匡 不 分 早晚 期 0,, -- 0.34 


THR Ош = - 0.62 
б ЛЛ Ж 38 О. =- 0.47 
Ж Ж 367) ЯЯ 0,,-а = - 0.524 


比较 这 4 个 0 ETARA Б ЛЯН) Ж, ЖЕ А. п ИЕЛЖ Р ЕИ ШЕЕ 
均 强 于 不 分 期 混合 计算 的 关联 强度 ,控制 第 三 变量 时 代 分 期 а, БЕЗЕ ИЕНІҢ ДЕЕ 
带 手镯 间 的 一 级 关联 系数 在 数值 上 大 于 零 极 关联 系数 。 这 说 明 不 考虑 年 代 早晚 因素 时 ， 
这 个 关联 某 种 程度 上 被 隐藏 了 。 为 什么 会 发 生 这 种 情况 呢 , 因 为 对 于 早 、 晚 两 期 的 墓 茸 ， 
性 别 与 是 否 随 葬 手 镯 的 关系 是 不 同 的 ,早期 很 少 有 妇女 不 带 手镯 ,而 晚期 很 少 有 男子 带 
手镯 .早晚 期 不 同 的 数据 结构 要 求 分 期 考察 幕 主 人 的 性 别 与 带 手镯 的 关联 ,或 者 在 控制 
年 代 分 期 的 条 件 下 考虑 墓葬 的 性 别 与 带 手镯 的 关联 。 

前 面 两 个 例子 提醒 我 们 , 当 考察 两 个 名 称 变量 与 Y 间 的 关联 时 ,必须 根据 考古 学 的 
知识 分 析 是 否 有 别 的 因素 可 能 影响 这 两 个 变量 间 的 关系 。 第 三 变量 可 能 增强 ,也 可 能 减 
弱 卫 与 了 间 表 观 的 关联 ,还 可 能 揭示 出 臣 与 了 7 间 存 在 更 复杂 的 关系 于, 了 与 上 三 个 变量 可 
以 计算 12 个 0 值 , 如 果 有 4 个 变量 ,可 能 组 成 的 0 值 数目 就 更 多 ,计算 工作 量 更 大 。 当 然 
没有 必要 计算 全 部 048, 关键 是 依据 具体 的 研究 目的 和 我 们 已 掌握 的 考古 学 知识 来 判 
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断 ,需要 考察 哪 一 对 变量 间 的 关联 ,是否 需要 控制 别 的 变量 。 
10.3 гхся Ју 检验 和 关联 强度 系数 六 


前 面 讨论 二 元 名 称 变量 间 的 关联 ,二 元 变量 只 能 有 两 个 状态 ,只 能 取 两 个 值 , 因 此 两 

二 元 变量 列 联 时 ,得 到 一 张 四 格 表 。 一 般 名 称 变量 可 以 有 多 个 状态 , 如 果 列 变量 天 有 

个 状态 , 行 变量 了 Y 有 e 个 状态 , 则 观测 数据 将 组 成 一 张 rx с 的 列 联 表 ( 见 表 10-10) .第 i 列 

第 7 行 的 单元 格 中 记录 实体 取 值 为 第 ; 个 列 变量 值 和 第 7 个 行 变 量 值 的 频次 数 由, 这 是 列 

联 表 的 主体 .经 常 在 表 的 最 后 增加 一 行 ( 列 ) ,记录 每 列 ( 行 ) 全 部 元 素 的 和 , 称 为 列 ( 行 ) Ж 
量 的 边缘 和 或 边缘 分 布 。m 为 样本 中 全 部 实体 的 总 数 。 


表 10-10 rxc 列 联 表 


2 

Хх Х, … X 行 和 

Y, nu Ra С Ra Па 

Y, Па Пи o na П,; 

Ү, ты. Ne Nre Пп». 
列 和 Пу» Na» “°° Г» п 


下 面 通过 两 个 实例 来 讨论 多 状态 名 称 变量 之 间 的 关联 问题 。 

Й— Ж 10-1la 统计 了 某 墓地 136 座 曹 ,并 按 墓 式 和 曹 主人 的 年 龄 段 分 组 。 墓 式 有 
Жи ЖН ДЕЗЕ ЧЕ 3 类 ,年龄 段 也 分 成 3 段 。 因 此 得 到 一 个 3x3 的 表 , 共 有 9 
个 单元 格 ,每 个 单元 格 中 记录 了 相应 墓 式 和 年 龄 段 的 幕 葬 数 目 wj。 表 的 最 后 一 列 ( 行 ) 记 
KAREA ERE) ERBA п, 和 ni, 。 需 要 检验 幕 式 与 幕 主人 年 龄 段 间 是 
否 有 关联 。 所 用 的 方法 和 处 理 四 格 表 的 情况 是 相同 的 ,也 是 作 x? 检验 。 


Ж10-Па 136 ЖЕЕ БИЕ ЖЕ М) 2 ЗЕ ПА ЗЕ КАЗИ ЖП ИОК Ж 
AA \ 年 龄 段 


检验 过 程 如 下 : 
(1) 作 原 假设 Нә: “а БАЕ ИЖЕ”. 
(2) 在 这 个 假设 前 提 下 ,计算 每 个 单元 格 的 期 望 频次 值 Е, ,计算 方法 如 公式 (10-10) 
所 示 。 | 
Е; = "=ч (10-10) 


їп, GEDE АВ Ей) КИЙ ШК Н. л 593) = 17.54, 其 他 8 个 期 望 频次 值 
也 类 似 计 算 。 将 计算 结果 写 人 表 10-11Ь„ Ж 10-11Ь 和 表 10-11а 的 边缘 分 布 是 一 致 的 。 
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表 10-11Ь 无 关联 假设 前 提 下 136 座 莫 莱 按 年 龄 段 和 墓室 结构 分 类 的 期 望 频次 表 


ER \ FRE 
简单 土 坑 


ЖЖЖ 


(3) 计算 统计 量 : 
X2 = = 之 之 一 (E; - усы) (10-11) 


这 个 统计 量 服从 自由 度 为 
df = (т-1)(с-1) (10-12) 
的 xz 分 布 。 对 于 所 分 析 实 例 , 公 式 (10-11) 给 出 x? = 5.169, 自由 度 等 于 (3 – 1) х (3-1) = 4, 

(4) Æ x? 表 ,得 到 a = 0.27。 因 此 在 27 % 的 显著 性 水 平 上 ,接受 原 假设 :没有 观察 到 
莫 式 与 幕 主人 年 龄 段 之 间 有 明显 的 关联 。 

前 面 在 讨论 变量 间 相 关 和 关联 中 ,我 们 一 直 强 调 , 仅 仅 以 一 定 的 置信 和 度 接受 或 拒绝 
关于 变量 间 关 联 的 假设 是 不 够 的 ,必须 同时 考察 相关 强度 或 关联 强度 。 对 于 二 元 变量 的 
2 x2 四 格 表 , 曾 定 义 了 #$ 和 0 两 个 量 来 度量 关联 的 强度 ,在 分 析 rx є 列 联 表 中 变量 间 的 
关联 时 ,也 必须 注意 关联 强度 ,因此 也 需要 定义 相应 的 关联 强度 系数 。r x с 列 联 表单 元 格 
的 数目 超过 4, 无 法 计算 0 值 。 虽 然 仍 可 以 计算 其 $8 值 ,但 $ 值 已 不 局 限于 (0 一 1) 之 间 , 它 
可 以 大 于 1, 且 随行 数 和 列 数 的 增加 而 发 散 。 因 此 # 和 0 不 能 作为 多 状态 名 称 变量 间 关 联 
强度 的 指标 ,需要 另外 定义 一 个 量 , 称 为 Cramer's У, 作为 关联 强度 的 度量 。 


2 
= min[(r -1),Ce - 1)] 
公式 中 的 分 母 表示 从 (> -1) 和 (c -1) 中 选择 数值 小 的 数字 。 式 (10-13) 定义 的 V, 其 数值 


(10-13) 


2 
是 限定 于 1 与 0 之 间 的 ,的 数值 越 大 ,反映 关联 强度 越 强 。 对 于 本 节 的 实例 , = 2- = 
n 


5.169 _ КРЕ ЛА , РЕ м р р 
136 = 0:038,/ = 78-5: 0.138。Y 值 接近 0 而 离 1 很 远 ,因此 说 明 关 联 是 很 弱 的 ， 


这 与 前 面 x? 检验 中 接受 “未 观察 到 显著 关联 ”的 原 假设 是 符合 的 。 


10.4 ”用 预测 中 误差 降低 的 比例 来 度量 变量 间 的 关联 ,A 与 + 系数 * 


第 九 章 在 讨论 数值 型 变量 间 的 相关 时 , 曾 指出 回归 方程 的 建立 可 以 降低 预测 应 变量 
时 的 误差 ,相关 程度 愈 高 ,预测 的 误差 愈 小 。 这 种 情况 同样 适用 于 名 称 变量 。 举 例 来 说 ， 
有 一 个 人 群 , 按 编号 预测 每 一 个 人 的 性 别 ,误差 可 能 会 比较 大 。 但 是 如 果 每 个 人 的 职业 
是 已 知 的 ,再 预测 这 个 人 群 中 每 个 人 的 性 别 , 误 差 就 会 变 小 。 因 为 职业 与 性 别 这 两 个 名 
称 变量 之 间 是 有 一 定 程度 的 关联 的 ,例如 医院 的 护理 人 员 女 性 占 多 数 , 而 出 租车 司机 男 
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性 占 多 数 。 现 在 作 一 个 逆向 的 思考 ,能 否 设 想 将 “在 知道 了 自 变 量 的 取 值 后 ,对 预测 应 变 
量 取 值 误差 的 降低 程度 "作为 它们 之 间 关 联 程度 的 度量 呢 ? 这 种 度量 称 为 PRE 度量 , 取 
自 英 语 Percentage of Reduced Error 三 个 字 的 第 一 个 字母 。PRE 是 这 样 定义 的 

E,- Е, 


PRE = СЕ (10-14) 


式 中 Е, 表示 未 知 X 与 Y 的 关系 时 ,预测 应 变量 了 的 误差 ,而 E 表示 已 知 了 与 X 的 关系 
时 ,利用 已 知 的 关系 预测 应 变量 了 的 误差 ,。( El - E) 反映 利用 已 知 的 关系 进行 预测 时 误 
差 的 减少 ,因此 РКЕ 值 就 是 利用 已 知 的 关系 进行 预测 时 误差 减少 的 比例 ,PRE 与 Cramer’ s 
VV 相似 ,其 变化 范围 也 是 0 与 1 间 。 如 果 了 与 X 间 不 存在 相关 或 关联 , 则 E = Е, PRE 
= 0。 另 一 个 极端 ,如 果 了 与 X 间 完全 关联 , 即 它们 间 存 在 着 函数 关系 ,从 而 能 完全 地 确 
Ж ҮЖИН, Е, 就 等 于 0, PRE = 1。 有 两 种 不 同 的 计算 Е, 与 方法 ,相应 有 2 个 不 
同 的 РКЕ 系数 ,分 别 是 4 系数 和 Goodman апі Kruskal 的 т 系数 。 需 要 指出 РКЕ 度量 适用 
于 各 种 层次 的 变量 ,并 不 限于 名 称 变量 。 


10.4.1 РКЕ 的 入 系数 


为 了 后 面 的 讨论 方便 ,这 里 重新 抄录 rx с 列 联 表 10-10。 
表 10-10 rxc 列 联 表 


Х| Х, … X, FM 
Ү, Пп Жур бз Ra Пп.) 
Y, пр пу … По Na? 
Ү, Rje Re 0” nre пке 


列 和 Пу» Nos U Пр» п 


因为 涉及 预测 问题 ,需要 区 分 自 变量 于 和 应 变量 了 。 表 中 列 变量 是 自 变 量 XA re 
状态 , 行 变量 是 应 变量 Y, 有 cc 个 状态 。i 列 j 行 的 单元 格 记 录 了 取 值 为 第 i 个 列 变量 值 和 第 
7 个 行 变量 值 的 实体 的 频次 数 。 表 中 央 r 列 c 行 的 r x Cc 个 元 素 nj(i = 1…r,j = bee) Æ 
表 的 主体 ,主体 的 每 一 列 是 自 变 量 取 值 确定 后 应 变量 了 的 分 布 , 称 为 条 件 分 布 。 表 的 最 后 
一 列 是 每 行 各 单元 格 频次 的 和 , 称 为 行 变量 了 的 边缘 和 或 了 的 边缘 分 布 。 边 缘分 布 是 不 考 
虚 自 变量 影响 情况 下 了 的 分 布 ， 

先 计 算 Е: 当 自 变量 了 的 取 值 不 确定 时 ,为 了 尽 可 能 准确 地 预测 了 ,减少 预测 误差 ， 
自然 应 该 挑选 Y 中 的 众 值 作为 所 有 实体 的 预测 值 , 即 选取 对 应 于 了 的 边缘 分 布 的 诸 п,, 
中 最 大 值 тах (п,;) КУ, 来 预测 每 一 个 实体 的 了 值 。 按 这 种 方法 进行 预测 , 将 有 
тах (nj) 个 实体 预测 正确 ,n — тах (п, ;) 个 实体 预测 错误 。 因此 

E, = п – тах(п,;) (10-15) 

再 计算 Е: АЖЕ ХЖ{НЕЖЯ,БИШ X = ХЕ, ЯН ЕН ЖЖ п, 的 分 
8.5 Т RAREN ЖЕ ИША АВИА Ж Х, п, 个 实体 的 了 Y 值 ,应 挑选 第 i 列 中 对 应 于 
Ж w 中 最 大 值 max (n) 的 号 作为 预测 值 。 按 这 种 方法 进行 预测 ,对 于 自 变 量 取 值 为 互 的 
nix 个 实体 ,将 有 тах (mw) 个 实体 预测 正确 ,m - тах (nj) 个 实体 预测 错误 ,至 此 只 考虑 
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了 对 应 于 X 取 值 为 X; 的 ni 个 实体 的 预测 情况 ,需要 考虑 全 体 互 的 > 个 可 能 取 值 ,因此 要 
ЖЯ, 这 样 


Е, = > (т, 一 тах(п;)) = n- > max( ny) (10-16) 
因此 
B-E У max( ns) - max(n xj) 
= Е, = n- тах(п,;) (10-17) 


可 以 证 明 ,公式 (10-17) 定 义 的 2 的 值 总 是 在 0 与 1 之 闻 变 动 。 如 果 开 与 了 间 无 关联 ， 
的 各 条 件 分 布 和 了 的 边缘 分 布 应 该 都 是 一 致 的 ,或 者 说 是 成 比例 的 ,这 样 各 分 布 中 最 大 
的 频次 数 都 处 在 同一 行 . 因 此 公式 (10-17) 的 分 子 等 于 零 ,) 也 就 等 于 0。 而 当 碟 与 了 完全 
关联 时 ,和 完全 确定 了 Y 的 取 值 , 表 10-10 的 各 行 各 列 中 均 有 一 个 ` 且 只 有 一 个 不 为 零 的 频 


次 数 ,其 他 单元 格 中 的 频次 数 均 为 零 因 此 У) шах (ng) = n, 式 (10-17) 的 分 子 分 母 相 


等 ,4 就 等 于 1。 
下 面 我 们 对 表 10-11a 中 136 座 墓 葬 按 募 式 和 墓 主 人 年 龄 段 分 布 的 数据 ,根据 公式 


(10-17) 计 算 其 和 值 。》= 023419415) SI -0.0482。 表 明 在 知道 了 自 变量 后 ,预测 误差 


减少 的 比例 仅 4.8% ,说 明 墓 式 和 幕 主人 年 龄 段 这 两 个 变量 之 间 的 关联 是 相当 绊 的 。 这 
5 10.3 WR ү 和 V 进行 检验 的 结论 是 一 致 的 。 

需要 指出 ,和 值 是 不 对 称 的 ,也 就 是 说 ,如 果 把 Х SY 的 关系 互 换 , 即 了 作为 自 变量 、 
下 作为 应 变量 时 ,计算 得 到 的 4 值 会 发 生变 化 。 为 了 公式 表达 的 对 称 性 ,将 公式 (10-17) 重 
写成 


> max( пу) - шах(п,;) | 
== (10-18) 


y n – шах(п, у) 


如 果 将 了 作为 自 变量 , 则 有 


У) max( т) 一 max(mix ) 
Ав = 到 一 
y С n - шах(п;,„) 


А ЗА, 是 不 相等 的 。 对 于 表 10-11а 的 数据 ,如 果 以 曹 式 作为 自 变量 , 按 公式 (10-19) 计 


жөн, -= ОЗ 17416-52 0 отв, ята, 虽 不 相等 ,但 相差 也 不 可 能 太 大 , 因 


为 它们 必 竞 是 同一 对 变量 间 关 联 程度 的 度量 。 当 自 变量 和 应 变量 不 易 分 清 时 ,也 可 以 用 
它们 的 平均 值 1 = e 作为 两 个 变量 间 关联 程度 的 度量 。 在 较 深入 的 统计 学 书 中 ， 
也 介绍 怎样 用 А 作为 统计 量 作 显著 性 检验 ,可 近似 计算 对 应 于 一 定 д 值 的 显著 性 水 平 。 
某 些 统计 软件 也 给 出 PRE 的 4 值 的 显著 性 水 平 。 例 如 对 于 表 10-11a 的 数据 ,SPSS 软件 给 
出 相应 А„ = 00476 的 显著 性 水 平 = 0.432, 即 应 该 接受 莫 式 和 曹 主人 年 龄 段 无 关 的 原 
假设 。 


(10-19) 
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10.4.2 PRE 的 Goodman апа Kruskal’s т 系数 


另 一 个 具有 РКЕ 性 质 的 ,作为 名 称 变量 关联 程度 的 度量 是 = 系数。r 系数 与 入 系数 
的 不 同 处 在 于 , 在 自 变量 X 的 取 值 不 确定 的 情况 下 计算 Е, 时 ,不 再 是 单一 地 都 用 表 
10-10 的 最 右面 一 列 , 即 了 边缘 分 布 的 众 值 来 预测 全 体 实 体 的 了 值 。 而 是 利用 了 边缘 分 布 
中 诸 ”分布 的 信息 来 预测 。 预 测 有 ns 个 实体 取 值 页 ,有 nm; 个 实体 取 值 了 ,,…… 有 


nso PRERE Y, ARER TRWA Y; An, 实体 ,预测 正确 的 实体 数 为 nj x H, 


顶 测 错误 的 实体 数 为 nj x (1-24), 
总 的 预测 错误 的 实体 数 是 通过 对 j 求 和 得 到 


2 
E = Ув. х (10204) п- У) У (10-20) 
) 1 


п 
下 面 计算 EMARE ХИНИНЕВЯ,УХ- ХН, п, 实体 的 预测 ,和 上 面 求 
Е 相似 ,也 考虑 第 i 列 中 诸 n 分 布 的 信息 , 即 考虑 七 = ,时 了 的 条 件 分 布 。 预 测 有 mi 个 
实体 取 值 Y, A no PRERE 万，…… 有 ne RERE Y, 。 模 仿 公 式 (10-20) ,对 于 X= 
XX 的 ni 个 实体 , 预测 错误 的 个 体 数 为 
2 
Е,(Х = Х;) = nis ~ >; ті. (10-21) 
这 样 ,在 自 变量 互 的 取 值 已 知 的 条 件 下 , 按 条 件 分 布 预测 全 体 实 体 的 了 时 ,预测 错误 
的 总 个 体 数 是 将 公式 (10-21) X i ЖЖП 
n? 2 
в, = У. У) 20) п- -DDH (10-22) 


结合 公式 (10-20) 和 (10-22) ,得 


2 2 
Pij _ nj 
„B-P 2% Tis 27 (10-23) 
Е, п, } 
п - У) 


7 п 
可 以 证 明 , т 的 取 值 与 4 的 情况 相似 ,也 是 在 0 与 1 之 间 。 当 并 与 了 间 无 关联 时 ,r = 
0; 而 当头 与 Y 完 全 关联 时 ,rt = 1。 另 外 zt 也 是 不 对 称 的 , 即 z+ 也 会 因 X 与 Y 间 自 变 量 的 选 
取 不 同 而 有 一 些 差别 。 
{ЛЕ Ж 10-11a 中 136 座 幕 昔 按 幕 式 和 墓 主 人 年 龄 段 分布 的 数据 为 例 计算 t 值 。 
根据 式 (10-20) 


_ l (2 2 2 _ 
Еу = 136- 15653 + 422 + 41°) = 90.01 


再 根据 式 (10-22 1) 
_ | 1 2 2 2 1 2 2 2 1 2 2 2) _ 
E, = 136 - (23 +12 +10) - ;5(19 +17 + 16°) ~ СІ + 132 + 152) = 88.19 


90.01 - 88.19 
因此 т = 90-01 - 0.0202 
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xz 的 数值 也 很 小 ,说 明 在 知道 了 自 变 量 后 ,预测 误差 减少 的 比例 仅 为 2% ,说 明 幕 式 和 
幕 主人 年 龄 段 这 两 个 变量 之 间 的 关联 是 相当 弱 的 。 这 与 用 了 值 和 》 值 度量 关联 强度 作 判 
汤 时 的 结论 是 一 致 的 。r 的 计算 过 程 比 4 要 复杂 ,但 由 于 它 比 4 更 充分 地 利用 了 原始 数据 
分 布 的 信息 ,能 更 合理 地 度量 两 个 名 称 变量 间 关 联 的 程度 。 很 多 统计 软件 中 都 包含 有 计 
ЖА 与 ,以 及 作 相 应 的 显著 性 检验 的 程序 。 


10.5 实体 按 单个 名 称 变量 分 布 的 x? 检验 


对 于 实体 按 数值 变量 的 分 布 ,前 几 章 已 有 讨论 ,例如 二 项 式 分 布 、 正 态 分 布 : 分 布 
等 。 名 称 变量 可 以 取 值 多 个 状态 ,因此 也 可 能 遇 到 分 布 的 问题 ,例如 考虑 实体 按 变量 状态 
的 分 布 是 怎样 的 ,是否 与 某 种 理论 分 布 一 致 等 .实际 分 布 和 理论 分 布 的 一 致 性 检验 是 通 
过 x? 函数 来 实现 的 。 下 面 通过 实例 来 说 明 检验 过 程 。 在 某 地 区 不 同 地 和 貌 类 型 的 区 域 调 
查 统计 了 考古 遗址 的 数量 ,希望 判断 遗址 的 密度 和 地 貌 类 型 间 是 否 有 一 定 的 关联 , 即 古 
代 居 民 在 选择 居住 地 时 是 否 偏爱 一 定 的 地 貌 地 理 环境 。 

表 10-12 记录 了 考古 调查 的 结果 。 


表 10-12 三 种 地 殊 类 型 区 域 的 调查 面积 和 观测 到 的 造 址 数 统计 表 
0; 8; (кш?) 比例 К, (%) 的 期 望 数 Е, 
山 前 平地 17.0 
шше | 18 | 37 |в | 28 | 
ав |59 |26 | w% | sai | 


38 10-12 的 第 2.3 列 记录 实际 调查 的 结果 ,3 Ж ЗЕН ІХ ЙІН ЖІЖІЛА ЖЕЗ НУ 
遗址 数 。 这 个 表 和 本 章 前 面 各 节 讨 论 的 实体 交叉 分 类 频次 表 是 不 同 的 ,单元 格 中 记录 的 
面积 和 面积 的 比例 等 不 是 实体 的 分 类 频次 。 根据 所 调查 的 各 类 地 和 貌 区 域 的 面积 5;, 可 计 


算 所 调查 的 各 关 地 稻 区 域 面积 的 百分比 ч :“ 古 代 居 


民选 择 居住 地 时 对 地 貌 环 境 无 倾向 性 ” 的 原 假设 前 提 下 ,计算 得 到 的 每 种 地 貌 区 域 的 期 
望 遗址 数 so 计算 公式 是 = Кх >) 0i6 例 如 山 前 平地 的 期 望 遗 址 数 Е, 为 
= Rix 2)0;=0.32x53 = 17.0 


同样 可 以 计算 Е, 和 E, 分 别 为 13.3 和 22.8. ЕЯЗЕВЯЖМЫҢ ИЗЕН 
后 ,可 作假 设 检验 如 下 : 
(1) 提出 原 假设 三 :古代 居民 选择 居住 地 时 对 地 和 貌 环 境 无 倾向 性 。 
(2) 在 Н 成 立 的 条 件 下 ,计算 
(0; - E? (26-17) (9-13.3)2 (26 - 22.8)? 
之 пт + B3 228 


= 7.11 


НРУ АЗ A 5942512) 3 Ж, 因此 上 式 计 算 的 х? 服从 自由 度 为 3 -1 = 2 的 
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х 9%. 
(3) 查 表 25047 = 2) = 5.99 < 7.11。 因 此 在 显著 性 o = 0.05 的 水 平 上 ,拒绝 “古代 


居民 选择 居住 地 时 对 地 貌 环 境 无 倾向 性 ”的 原 假设 。 
xX 检验 的 结论 是 以 稍 大 于 95 % 的 置信 和 度 判 断 古 代 居 民选 择 居住 地 时 对 地 貌 环境 有 
倾向 性 ,但 检验 的 结论 一 般 不 能 直接 推断 古代 居民 更 喜欢 哪 一 种 地 貌 环境 。 对 于 这 个 问 


题 的 管 案 需 要 另外 计算 比较 不 同 地 貌 环境 区 域 的 遗址 密度 等 。 


第 十 一 章 ”有 序 变量 间 的 等 级 相关 


前 两 章 分 别 讨论 了 数值 变量 之 间 的 相关 关系 和 名 称 变量 之 间 的 关联 关系 ,处 于 中 间 
层次 的 有 序 变量 之 间 同 样 可 能 存在 相关 问题 ,有 序 变量 之 间 的 相关 又 称 等 级 相关 。 本 章 
将 先后 讨论 表征 有 序 变 量 之 间 相关 强度 的 斯 皮尔 曼 (Spearman) 相 关系 数 和 Gamma 相关 系 
数 , 简 单 介绍 Kendall’ s т 系数 。 本 章 的 最 后 还 将 介绍 有 序 变 量 的 百 分 累 加 曲线 之 间 的 
比较 。 


па 斯 皮尔 曼 等 级 相关 系数 


为 了 便于 理解 ,将 通过 一 个 实际 的 例子 来 说 明 斯 皮尔 曼 相 关系 数 的 定义 ,计算 方法 
和 有 关 的 假设 检验 。21 世纪 初 我 国 的 故宫 又 进行 了 一 次 较 大 规模 的 修缮 工作 。 修 缮 的 
重要 内 容 之 一 是 置换 故 官 建筑 物 上 大 量 的 琉璃 瓦 。 因 为 经 历 长 期 的 冬夏 交替 和 日 晒 雨 
淋 , 不 少 琉璃 瓦 胎 体 上 的 釉质 琉璃 有 不 同 程度 的 剥落 。 苗 建 民 等 (2004) 研 究 了 瓦 胎 上 釉 
质 剥 落 的 程度 与 胎 体 的 孔隙 度 之 间 的 关系 。 表 11-1 列 出 了 对 14 片 瓦 的 胎 体 的 气孔 率 
(第 2 列 ) 和 釉质 剥落 程度 (第 3 列 ) 的 观测 数据 。 虽 然 表 中 用 百分比 作为 这 两 个 变量 的 测 
量 单位 ,但 釉质 琉璃 层 的 剥落 率 是 目测 的 估计 值 , 也 可 以 分 成 未 剥落 、 极 小 片 剥 落 一 直到 
严重 剥落 、 完 全 有 剥落 等 级 别 。 气 孔 率 也 可 以 看 成 有 序 变 量 , 在 2.2.4 小 节 中 曾 提 到 ,高 层 
次 的 变量 总 是 可 以 转换 为 较 低层 次 的 变量 。 表 11-1 的 第 4.5 列 分 别 表示 这 两 个 变量 按 
各 自 的 大 小 排序 后 的 序列 号 。 因 为 总 共有 14 个 样品 ,序列 号 本 来 应 该 从 1 开始 ,每 次 增 
加 1 ,一 直到 14。 但 有 时 两 个 或 两 个 以 上 的 样品 是 等 级 别 的 ,例如 编号 为 6 号 和 9 号 的 两 
个 瓦 片 样品 ,它们 的 气孔 率 排 序 位 置 本 应 定 为 第 7 和 第 8, 但 它们 的 气孔 率 值 是 相等 的 ， 
不 能 分 清 前 后 次 序 , 所 以 它们 的 气孔 率 排序 都 定 为 第 7.5 位 。 类 似 的 情况 还 有 编号 2 号 
和 13 号 样品 的 气孔 率 排序 , 37 和 38 号 样品 的 釉 剥 落 率 排序 等 。 该 表 的 第 6 列 显示 两 个 
变量 排序 次 序 的 差 值 , 称 为 序 差 ,用 Di 表示 。 序 差 可 正 可 负 。 最 后 一 列 是 序 差 的 平方 项 ， 
它 总 是 大 于 或 等 于 零 的 正 值 。 


#11 14 片 故 官 琉璃 矶 的 胎 体 气 孔 率 和 釉 别 落 率 


瓦 片 编号 气孔 率 % ЯЖ 气孔 率 排序 釉 剥 落 率 排序 序 差 (нал 

х Y D=X-Y р? 
3.5 -2.5 6.25 
3.5 -1.5 2.25 
1.5 1.5 2.25 
5 -1 1 
1.5 3.5 12.25 
6 0 0 


38 26 5 
37 29 5 
11 30 0 

3 32 25 
35 33 0 
14 37 30 
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续 表 

瓦 片 编号 气孔 率 % МЖӘ 气孔 率 排序 釉 剥 落 率 排序 ж (жа) 

6 38 65 7.5 10 -2.5 6.25 

9 38 80 7.5 12 -4.5 20.25 
34 39 80 9 12 -3 9 
16 40 40 10 7 3 9 
4 42 60 11 9 2 4 

2 43 50 12.5 8 4.5 20.25 

13 43 90 12.5 14 -1.5 2.25 
1 46 0080 4. 12 2 4 

ЖІ -99 


斯 皮尔 曼 相关 系数 的 定义 如 下 : 
6>)р? 
7 n(n? – 1) 
式 中 分 式 的 分 子 是 6 倍 的 序 差 平方 和 , п 是 样本 的 容量 ,对 于 本 例 n = 14, 
可 以 证 明 斯 皮尔 曼 相 关系 数 的 取 值 范围 从 + 1 到 - 1。 当 两 个 变量 完全 正 相 关 时 ,每 
个 实体 的 两 个 变量 的 等 级 都 相等 ,因此 全 部 序 差 均 为 零 , 式 (11-1) 的 分 式 的 分 子 也 为 零 ， 
г, = 1。 当 两 个 变量 完全 负 相 关 时 , 即 实体 按 两 个 变量 的 排序 是 完全 倒序 的 ,第 一 变量 的 
最 低级 和 第 二 变量 的 最 高 级 相对 应 ,通过 代数 运算 可 以 证 明 т, = - 1。 总 之 7, 的 绝对 值 越 
接近 1, 关联 程度 越 高 ;r, 的 绝对 值 越 接近 零 ,关联 程度 越 低 。 因 此 斯 皮尔 曼 相 关系 数 是 
两 个 有 序 变量 间 等 级 相关 强 弱 的 度量 。 此 外 还 可 以 证 明 , 当 п > 10 时 ,模仿 皮尔 逊 相关 
系数 的 有 关公 式 (9-11) ,用 т, 组 成 的 统计 量 : 


(11-1) 


г, = 1 


n-2 
t= 一 11-2) 
| r | TE ( ) 


同样 服从 自由 度 为 (n - 2) 的 上 分 布 。 因 此 可 以 根据 r, 和 n 的 数值 ,对 有 序 变 量 的 等 级 相 
关 作 显 著 性 检验 。 


2 _ оо, _ р 6x% „ 
对 于 上 面 故 宫 琉 璃 瓦 的 例子 ， Ур = 99,7 = 1- тт = 0-78 


t = 0.78 1422, = 4.31, df = 14-2 = 12。 查 上 分 布 函数 表 , 得 到 相应 的 显著 性 水 


Жа = 0.001。 因 此 可 以 以 99.9% 的 置信 和 度 判 断 琉璃 瓦 胎 体 的 气孔 率 和 釉质 剥落 的 程度 
是 相关 的 ,相关 强度 为 0,78。 顺 便 提 到 ,如 果 把 胎 体 的 气孔 率 和 釉质 的 剥落 程度 看 成 数值 
变量 ,计算 得 到 皮尔 逊 相关 系数 是 0.834, 与 斯 皮尔 曼 相 关系 数 0.78 相差 不 多 。 斯 皮尔 曼 
相关 分 析 相 对 于 皮尔 逊 相关 分 析 的 优点 是 ,假设 检验 时 不 要 求 应 变量 了 服从 正 态 分 布 ， 
也 不 要 求 各 Yi 的 方差 相等 等 前 提 条 件 的 成 立 。 对 于 故宫 琉璃 瓦 的 例子 ,是 难以 判断 釉 的 
剥落 率 是 否 服从 正 态 分 布 的 , 作 等 级 相关 分 析 更 为 合适 。 

对 于 小 样本 , 当 小 于 10 时 ,公式 (11-2) 定义 的 上 一 定 程度 上 偏离 上 分布 ,这 时 可 查 
下 列 的 表 11-2 来 确定 不 同 = 时 上 值 所 对 应 的 显著 性 水 平和 置信 和 度 。 
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表 11-2 小 样本 情况 下 等 级 相关 检验 中 对 应 于 不 同 的 显著 性 水 平和 置信 度 的 斯 皮尔 曼 相 关系 数 


EEE - а) 


需要 指出 ,使 用 斯 皮尔 曼 相关 系数 来 表征 两 个 有 序 变 量 间 的 相关 强度 时 要 求 , 同 一 
等 级 上 出 现 有 两 个 或 两 个 以 上 实体 的 次 数 不 应 太 多 ,特别 是 不 应 出 现 好 几 个 实体 的 等 级 
相同 的 情况 。 如 果 样 本 中 存在 相同 等 级 的 实体 ,计算 斯 皮尔 曼 相关 系数 的 公式 (11-1) 需 
要 作 一 些 修正 。 在 有 的 统计 学 书 中 给 出 修正 公式 ,如 美国 匹 艾 堡 大 学 周南 (R. Drennan) 扎 
写 的 《Statistics for Archaeologists, A Commonsense Approach》。 对 于 故宫 琉璃 瓦 的 例子 , 作 修 
正 后 的 r, = 0.759 , 略 小 于 公式 (11-1) 给 出 的 未 修正 值 0.780。 


11.2 Gamma 等 级 相关 系数 :以 陕西 史家 莹 地 董 葬 分 期 方案 的 比较 为 例 


上 一 节 已 经 提 到 , 当 有 很 多 实体 处 于 同一 等 级 时 ,就 不 能 用 斯 皮尔 曼 相关 系数 来 表 
征 有 序 变量 间 的 相关 强度 。 另 外 ,用 斯 皮尔 曼 相 关 分 析 方 法 处 理 含有 大 量 实体 的 大 样本 
时 ,计算 工作 量 很 大 ,在 计算 机 普及 前 不 很 方便 。 因 此 发 展 了 一 种 Gamma 等 级 相关 分 析 
方法 。Gamma 等 级 相关 分 析 把 两 个 有 序 变量 的 取 值 分 成 数目 不 多 的 几 个 大 段 , 实 体 同 时 
按照 两 个 有 序 变 量 的 取 值 段 分 类 ,再 统计 每 类 的 实体 数 ,并 写 出 类 似 于 第 十 章 的 交叉 列 

为 了 便于 理解 ,还 是 通过 实际 的 例子 来 阐明 Gamma 等 级 相关 系数 。20 世纪 80 年 代 
我 国 考古 期 刊 曾 先 后 发 表 了 6 个 对 陕西 史家 仰韶 昔 地 的 墓葬 进行 分 期 的 方案 ,并 曾 引起 
热烈 的 争论 。 详 细 的 情况 将 在 本 书 17.3 节 关 于 数量 方法 应 用 于 考古 分 期 研究 中 介绍 。 
这 里 仅 涉及 如 何 用 Сапта 等 级 相关 分 析 来 定量 表述 两 个 分 期 方案 间 的 相似 程度 。 墓 磊 
分 期 中 的 期 别 属于 有 序 变量 ,而 且 一 般 情况 下 每 一 期 别 含 数目 相当 多 的 莫大 ,因此 定量 
比较 两 个 分 期 方案 的 异同 程度 适宜 于 使 用 Сапта 等 级 相关 分 析 方法 。 张 忠 培 (1981 ) 用 
传统 的 类 型 学 方法 提出 了 史家 墓地 的 分 期 方案 ,后 来 本 书 的 作者 (1985) 使 用 聚 类 分 析 的 
定量 方法 也 建议 一 个 分 期 方案 。 有 25 座 幕 莫 在 这 两 个 方案 都 作 了 分 期 的 。 表 11-3 显示 
了 这 25 座 医药 相对 于 两 个 分 期 方案 的 交叉 分 类 , 表 中 每 个 单元 格 决 定 了 每 座 医药 的 分 
期 位 置 , 第 ; 列 第 / 行 单元 格 记 录 了 被 张 定 为 第 ; 期 和 被 陈 定 为 第 /期 的 墓葬 数目 wm 同 
时 也 表示 单元 格 的 编号 ,显然 i 与) 分别 表示 变量 和 与 Y 的 等 级 。 从 表 中 可 以 看 到 ml = 2, 
即 有 4 个 医药 被 两 个 方案 都 定 为 第 一 期 ;ns = 1, 有 1 个 蔓草 张 定 为 第 二 期 而 陈 定 为 第 一 
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期 ,等 等 。 


表 11-3 ERAH 25 座 莫 葛根 据 张 宗 培 和 陈 铁 梅 两 个 分 期 方案 的 分 组 表 


陈 铁 梅 Y/ 张 宗 培 义 
1 期 


为 了 计算 表 (11-3) 所 列 数据 的 Gamma 相关 系数 ,首先 要 把 表 (11-3) 中 实体 两 两 之 间 
的 关系 分 成 三 种 类 型 : 同 序 对 .逆序 对 和 同 分 对 。 设 单元 格 A 中 实体 的 变量 х ууну 
级 是 (xy)，, 单元 格 B 中 实体 的 变量 ХЫ Y 的 等 级 是 (x;,y), 现 对 3 种 关系 类 型 定义 如 
F: 

(1) 同 序 对 。 

如 果 对 于 工 与 了 都 是 ; < j, 那么 A 格 中 的 每 一 实体 与 B 格 中 的 每 一 实体 均 组 成 同 序 
对 。 据 表 11-3 可 见 ， nu 单元 格 中 的 4 个 实体 与 ПП» Под, Пу, пә 和 п 等 6 单元 格 中 
的 每 个 实体 都 组 成 同 序 对 。ny 与 пз, 的 实体 也 组 成 同 序 对 ,当然 还 可 以 组 成 其 他 的 同 序 
对 。 同 序 对 的 总 数 用 п, ж. 

(2) 逆序 对 。 

如 果 对 于 对 有 i < j, 而 对 于 了 有 i > 廊 或 者 反 过 来 对 于 三 有; > 让 而 对 于 了 有 i < 
放 则 A 格 中 的 实体 与 B 格 中 的 实体 组 成 逆序 对 。 例 如 对 于 表 11-3， пә 中 的 两 个 实体 与 
паз, па, поз 和 ny 的 实体 组 成 逆序 对 的 例子 。 逆 序 对 的 总 数 用 na 表示 。 

(3) 同 分 对 。 

同 分 对 又 分 成 3 种 情况 。 

如 果 对 于 区 有 i = 户 则 A 格 与 B 格 中 的 实体 组 成 下 同 分 对 。 同 一 列 各 单元 格 的 实体 
闻 组 成 X 同 分 对 。 例 如 对 于 表 11-3, nu, по nts 和 пы 单元 格 中 的 实体 相互 组 成 ХІ 
ХАХА Н Т, 表示 。 | 

如 果 对 于 了 有 i =j, 则 A 格 与 B 格 中 的 实体 组 成 了 同 分 对 。 同 一 行 各 单元 格 的 实体 
间 组 成 了 同 分 对 。 对 于 表 11-3, ni, nz 和 пу 单元 格 中 的 实体 相互 组 成 了 同 分 对 。Y 同 分 
对 的 总 数 用 Т, 表示 。 

处 于 同一 个 单元 格 中 的 实体 , 则 对 于 与 了 均 有 i =j, EMAR ZX, YRA X, 
Ү 的 同 分 对 只 可 能 存在 于 同一 个 单元 格 的 实体 之 间 ， 而 每 个 单元 间 的 各 实体 间 相 互 组 成 
了 ,了 的 同 分 对 。 工 ,了 同 分 对 的 总 数 用 Ty ЖЖ. 

应 该 指出 网 分 对 的 3 种 情况 并 不 是 互 斥 的 ,了 Y, 了 的 同 分 对 是 X 同 分 对 和 了 同 分 对 的 
特殊 情况 ,X,Y 的 同 分 对 的 数目 7 已 包括 在 7 与 Т, 之 中 。 因 此 实体 对 的 总 数 是 п, + ты 
+ Т, + Т, ~ Tyo MES 


2(а-1) = пля Т, + Т, - Т, (11-3) 
从 实体 两 两 间 3 类 关系 的 定义 可 以 看 出 , 同 序 对 反映 两 个 变量 间 的 正 相 关 , 道 序 对 
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反映 负 相 关 , 而 同 分 对 则 反映 缺乏 相关 ,或 变量 间 的 独立 性 。 如 果 在 实体 按 两 个 有 序 变 
量 分 布 的 交叉 列 联 频 次 表 中 (例如 表 11-3), 同 序 对 的 数目 п, 显著 超过 逆序 对 的 数目 nu， 
那么 这 两 个 变量 间 应 为 正 相关 ;反之 , 若 逆 序 对 的 数目 显著 超过 同 序 对 的 数目 ,那么 这 两 
个 变量 间 应 为 负 相关 。 如 果 n 与 ns 的 大 小 差不多 ,那么 两 个 变量 间 的 相关 程度 很 弱 。 由 
上 面 的 讨论 顺理成章 地 定义 Gamma 等 级 相关 系数 为 
С = п, 一 Па 
п, 十 ng 
由 公式 (11-4) 容 易 看 出 ,Gamma 的 取 值 范围 从 1 到 - 1。 当 列 联 表 中 实体 间 的 关系 全 是 同 
序 对 时 , ns = 0 时 , 6 = 1 变量 间 是 完全 的 正 相关 ; 当 实体 间 的 关系 全 是 逆序 对 时 , С = - 1， 
变量 间 是 完全 的 负 相关 。 当 同 序 对 和 逆序 对 的 数目 相等 ,m = ns В,С = 0, 变量 间 互 相 
独立 ,不 相关 。 因 此 Gamma 系数 是 两 个 有 序 变量 间 相 关 程 度 的 度量 。 
在 讨论 了 Gamma 等 级 相关 系数 的 定义 和 性 质 后, 回 到 表 11-3 的 例子 ,分 析 张 忠 培 和 
陈 铁 梅 对 史家 墓地 的 两 个 分 期 方案 是 否 相关 ,相关 的 程度 有 多 高 。 计 算 表 11-3 的 Gamma 
相关 系数 ,完全 可 以 借助 于 各 种 计算 机 软件 ,但 为 了 演示 计算 过 程 ,下 面 进 行 手工 计算 。 
计算 的 主要 内 容 是 确定 n, ЯЙ лу 
先 计算 n,, 分 成 几 部 分 计算 : 


niina х (поо + пз + ny + по + паз + пы) = 4х (3+1+1+2 +3 + 3) = 52 


(11-4) 


папа х (пз + n3 + па) = 1х (2+3 + 3) = 8 

пр: пр х (поз + ny + паз + па) = Зх (1+1+3 +3) = 24 

пэ: п х (пз + пм) = 3 х (3 + 3) = 18 

naini х (ny + пу) = 2 х (1+3) = 8 

Пәз: Поз xX па = 1х3 = 3 

п, = 52+ 8 + 24 + 18 + 8 +3 = 113 

再 计算 na ,也 是 分 成 几 部 分 计算 

пзу: пз х (пу + поз + ny + np + пз + пы) = 2 х (3 +1+1+3 +2 + 0) = 20 
naina х (пр + ng + ny) = 1х (3+2 + 0) = 5 

naina х (пз + ny + ng + пц) = 2х (1+1+2 + 0) = 8 

пут» х (пз + пц) = 3 х (2+ 0) = 6 

naina х (па + пи) = 3 х (1+ 0) = 3 

nagina X пц = 3х 0 = 0 

па = (20+5+8+6+3 + 0) = 42 

Жап, 和 no 代入 公式 (11-4), 得 到 


_ 113-42 
113 + 42 


Gamma 系数 定量 地 表述 了 张 与 陈 的 两 个 分 期 方案 间 的 相关 程度 。 由 G 的 数值 和 符号 
可 以 认为 ,这 两 个 分 期 方案 是 正 相 关 的 ,但 相关 强度 并 不 大 。 
顺便 指出 ,如 果 表 11-3 中 的 X 与 Y 都 只 有 两 个 等 级 , 如 下 所 示 : 


= 0.458 
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ХІ Хх, 
Ү, а Ь 
У, с 4 
则 G = 20 be ,与 第 十 章 的 式 (10-6) 定义 的 ,度量 2 x 2 四 格 列 联 表 关联 强度 的 Yule 0 


ad + pc 
系数 是 一 致 的 。 因 此 0 系数 是 Gamma 系数 的 一 种 特殊 情况 。 


11.3 Kendall's т, т, 等 级 相关 系数 


公式 (11-4) 定 义 的 Gamma 系数 ,没有 充分 考虑 同 分 对 对 相关 系数 的 影响 ,因此 Gam- 
ma 系数 对 相关 程度 的 估计 偏 高 。 如 果 将 Gamma 系数 公式 中 的 分 子 (n, – m) 被 所 有 实体 
两 两 成 对 的 总 数 闻 n(n - 1) 去 除 ,这 样 定义 的 相关 系数 又 会 对 相关 程度 估计 不 足 。 因 此 
Kendall 提出 了 两 种 修正 的 方法 。 
(1) Kendall's tau -b 系数 定义 如 下 : 
(n, = па) 
V n, + nat Т, + Т, Vn + nat T, + Т, 


(n, 一 па) 


аот т, 


сь 相对 于 式 (11-4) 的 Gamma 系数 而 言 是 在 分 母 中 ,分 别 考虑 了 实体 间 同 分 对 的 影响 。 
对 于 表 11-3 所 示 的 数据 , 同 分 对 的 数目 计算 如 下 : 


了 的 同 分 对 : Т, = >; ы 


і 


ту = 


(11-5) 


{+ —1) = 36 + 15 + 45 = 96 


了 的 同 分 对 : T, = У 90®.;-0 = 210+ 28 + 15 +6 = 70 


X, 了 的 同 分 对 : Ty = У 90% -1) =6+1+353+1+1+3+3 = 21 


在 分 别 计算 了 同 序 对 、 异 序 对 和 3 种 同 分 对 的 数目 后 ,不妨 利用 计算 实体 对 总 数 的 公式 
(11-3) 来 检查 各 类 实体 对 数目 的 计算 结果 是 否 正确 。 
п, + na + T, + 7,- Т, = 113 + 42 + 96 + 70 – 21 = 300 


п 25 
202-1) = 2 (25 ~ 1) = 300 


两 种 方法 计算 的 总 实体 对 的 数目 是 相符 的 。 肯 定 计算 正确 后 ,将 同 分 对 等 数据 代入 式 
(11-5) 得 到 : 
(n, 一 па) 
Мт, + па + Т, + Т, Vn, + па + Т, + Т, 
71 
713 4 42 + 96 + 21 V113 4 42 + 70 + 21 


ту = 


= 0.328 
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(2) Kendall’ s tau-c 定义 如 下 : 
r = ч ъ= "ы (11-6) 
5" (т - 1)/m 


式 中 т 为 行 数 或 列 数 中 取 小 的 一 个 数值 。 表 11-3 是 3 列 4 行 ,因此 对 于 表 11-3 有 mm = 3， 
计算 得 到 


_71x2x3 
. 252(3 - 1) 

可 以 看 到 , 考虑 了 同 分 对 后 的 等 级 相关 系数 т, Жіт, 的 数值 比 Сапта 系数 (0.458) 为 
小 。Gamma ЖЖ, т, т, 不仅 定量 地 度量 了 两 个 有 序 变 量 间 相关 的 强度 ,它们 也 可 以 作 
显著 性 检验 ,检验 方法 在 较 深 入 的 统计 学 书 中 有 介绍 , 某 些 统计 软件 也 能 给 出 检验 结果 。 
利用 SPSS 软件 对 表 11-3 的 Сапта ЖЖ т, ЯП т„ 作 检 验 , 所 得 的 显著 性 水 平 都 是 a = 
0.042。 因 此 尽管 r 和 ze 的 数值 与 Gamma 系数 不 一 致 , 只 是 对 相关 强度 的 估计 有 一 定 的 差 
别 , 但 检验 得 到 的 显著 性 水 平 是 一 致 的 。 检验 结果 是 在 a = 0.04 的 水 平 上 认为 张 与 陈 的 
分 期 方案 是 相关 的 ,如 果 将 显著 性 水 平定 得 稍 高 些 , 辟 如 说 选 定 a = 0.02, 则 将 接受 “两 
个 分 期 方案 是 不 相关 的 ” 原 假设 。 总 之 张 与 陈 对 史家 墓地 的 分 期 方案 是 正 相 关 的 ,但 相 
关 程 度 并 不 高 。 

最 后 还 需要 指出 ,表面 上 看 表 11-3 似乎 与 第 十 章 名 称 变量 的 列 联 表 10-10 十 分 相似 ， 
每 个 单元 格 中 记录 的 都 是 对 应 于 有 关 行 、 列 变量 值 的 实体 的 频次 。 但 这 两 张 表 之 间 是 有 
区 别 的 。 第 十 章 名 称 变量 列 联 表 中 的 行列 变量 都 是 名 称 变量 , 使 用 y, VAa 和 zc 等 统计 
量 来 描述 变量 间 的 关联 程度 。 而 且 对 于 名 称 变量 列 联 表 , 行 与 行 之 间 , 列 与 列 之 间 是 可 以 
互相 任意 交换 位 置 的 ,而 且 交 换 位 置 后 , x? 等 关联 强度 系数 的 数值 不 会 发 生变 化 。 但 是 
对 于 有 序 变量 的 表 11-3, 其 行 ( 列 ) 的 次 序 反 映 幕 茸 分 期 的 次 序 , 行 ( 列 ) 与 行 ( 列 ) 间 的 换 
位 会 改变 分 期 方案 ,因此 这 种 换 位 是 不 被 允许 的 。 名 称 变量 列 联 表 的 假设 检验 要 求 表 中 
每 个 单元 的 频次 数值 不 能 太 低 ,譬如 说 不 小 于 5。 但 是 计算 Сапта 等 各 等 级 相关 系数 时 ， 
对 于 列 联 表 中 每 类 实体 的 频次 数 并 没有 限制 。 

我 们 还 可 以 进一步 分 析 下 面 的 一 张 列 联 表 , 来 说 明 两 种 列 联 表 间 的 差别 : 

Хх Х, Xs Хх, 
Ү, 0 0 n31 0 


= 0.341 


Te 


这 张 列 联 表 的 每 行 每 列 都 只 有 一 个 单元 格 不 为 堆 。 如 果 开 与 了 7 是 名 称 变量 ,下 完全 决 
定 了 了 的 取 值 ,两 个 变量 间 是 函数 关系 。 其 关联 系数 4 和 Goodman-Kruskal’ s т 都 应 该 等 于 
1, 卫 与 Y 间 是 强 关 联 。 但 如 果 针 与 Y 是 有 序 变量 , 凭 直观 分 析 就 可 以 看 出 针 与 Y 间 相关 性 
不 可 能 很 高 ,各 种 等 级 相关 系数 r,, Gamma , Kendall’ s zi ,re 等 都 不 可 能 等 于 1。 因 为 这 里 
研究 的 是 两 种 不 同 层次 的 变量 间 的 关系 , 列 联 关联 强 并 不 表示 等 级 相关 也 强 。 列 联 关联 


126 ”定量 考古 学 


强 表 示 当 自 变 量 处 已 知 时 可 以 准确 地 预测 应 变量 了 Y 的 取 值 ,等 级 相关 分 析 的 是 两 个 变量 
变化 的 方向 是 否 有 关系 。 两 种 不 同 层 次 的 变量 ,研究 不 同性 质 的 问题 ,因此 表 11-3 与 表 
10-10 的 相似 仅仅 是 表 观 的 。 


11.4 ”两 个 有 序 变量 百 分 囚 加 曲线 的 一 致 性 检验 


第 三 章 的 图 3-1c 是 一 张 百 分 累加 曲线 图 ,描述 性 统计 了 青海 乐 都 柳 湾 墓地 成 年 女性 
人 肯 按 年 龄 段 百 分 比 的 增长 。 本 节 将 通过 考古 实例 来 讨论 两 条 百 分 累 加 曲线 的 一 致 性 
检验 。 

考古 调查 了 某 新 石器 晚期 的 幕 地 。 按 照 幕 中 随 芋 品 的 多 赛 和 质量 分 成 76 座 富 人 幕 
和 136 座 穷 人 幕 ,并 统计 了 幕 主 人 的 死亡 年 龄 。 表 11-4 列 出 幕 莫 按 贫 富 情况 和 死亡 年 龄 
段 分 组 的 数据 。 


表 11-4 某 慕 地 募 葬 按照 贫 寅 情况 和 死亡 年 龄 段 的 分 组 统计 


人 数 FAR |) ЕЕ ENEAN zinaa 累计 百分数 之 差 


| 0.079 0.169 
0.105 | 0.154 
| 0.184 
0.250 Сел 

. . | 
0.039 | 0.029 


1.000 


十 


累计 百分数 


oo 穷人 
--ЖА 


图 11-1 某 莫 地 慕 葬 按照 贫 富 情 况 分 类 的 两 条 
死亡 年 龄 段 百 分 黑 加 曲线 


图 11-1 是 分 别 反 映 贫 富 两 类 慕 茸 按 磊 主人 死亡 年 龄 段 分 布 的 两 条 百 分 累 加 曲线 。 
由 图 可 见 在 低 年 龄 段 穷 人 的 死亡 率 高 于 富 人 的 ,穷人 墓葬 按 死亡 年 龄 段 分 布 的 百 分 景 加 
曲线 高 于 富 人 董 蔡 的 。 希 望 判 断 ,所 观察 到 的 贫 宣 间 死亡 率 的 差异 属于 随机 的 涨 落 , 还 
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是 有 统计 意义 的 , 即 我 们 要 检验 两 条 死亡 年 龄 段 百 分 累加 曲线 的 差别 是 否 显 著 , 对 墓地 
所 属 的 氏族 这 个 总 体 而 言 , 人 的 寿命 和 他 们 的 财产 状态 之 间 有 没有 关系 。 

柯 尔 莫 高 罗 夫 和 斯 米尔 诺 夫 提出 了 一 种 检验 两 条 百 分 累加 曲线 一 致 性 的 方法 ,把 两 
条 百 分 暴 加 曲线 的 最 大 差 值 作为 一 个 判别 量 。 在 我 们 的 例子 中 最 大 差 值 是 0.178( 见 表 
11-4, 用 黑体 字 表 示 ), 对 应 于 “少年 " 段 。 

柯 尔 莫 高 罗 夫 和 斯 米尔 诺 夫 的 检验 标准 是 将 最 大 差 值 与 x。 HHE, у, 按 下 式 计算 : 


ni 十 п) 
Xe = Қ,,/ ning (11-7) 


式 中 天. 是 一 个 常数 , 随 显著 性 水 平 a 而 变化 。Ko u = 1.36, Koo = 1.63 A Ko oo = 1.95 

п 和 n 是 组 成 两 条 百 分 累 加 曲线 的 样本 的 容量 ,在 本 例 中 是 76 和 136。 检 验 过 程 如 

F: 

(1) 提出 原 假设 Н: 贫 、 富 两 个 总 体 的 各 年 龄 段 死亡 率 百 分 累 加 曲线 间 无 显著 差别 
(2) 取 显 著 性 水 平 =- 0.05 ,计算 得 到 


[76 + 136 _ 
Х0.05 = 1.36 76 х 136 ш 0.196 


(3) yo.o = 0.196 > 最 大 差 值 = 0.178, 因 此 在 a = 0.05 的 显著 性 水 平 上 接受 原 假 
设 Hoo 

检验 结论 是 :在 a = 0.05 的 水 平 上 没有 观察 到 该 新 石器 晚期 墓地 所 属 氏 族人 口 的 寿 
命 和 人 员 的 财产 情况 之 间 有 明显 的 关系 。 

前 面 我 们 仅 介 绍 了 柯 尔 莫 高 罗 夫 和 斯 米尔 诺 夫 的 检验 过 程 ,并 没有 讨论 为 什么 可 以 
这 样 处 理 。 这 里 仅 指 出 ,在 实际 应 用 中 需要 注意 两 个 前 提 :(1) 它 仅 适用 于 有 序 变 量 ( 数 值 
变量 可 以 转换 成 有 序 变量 );(2) 样本 的 容量 不 能 太 少 ,nl 和 п, 都 应 该 大 于 40. 
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121 抽样 问题 在 总 体 参 数 估计 中 的 重要 性 


在 讨论 抽样 问题 前 , 先 简要 回顾 第 五 章 以 来 讨论 统计 推断 中 关于 总 体 和 样本 的 关系 
问题 。 在 那些 章节 讨论 了 怎样 用 样本 的 方差 和 平均 值 来 估计 总 体 的 方差 和 平均 值 ,用 样 
本 的 比例 数 去 估计 总 体 的 比例 数 ,用 样本 的 相关 系数 去 估计 总 体 的 相关 系数 等 ,还 讨论 
了 估计 的 置信 度 和 精确 度 。 在 所 有 这 些 讨 论 中 自始至终 默认 了 一 条 原则 , 即 所 采集 或 观 
测 得 到 的 样本 能 “代表 ”总 体 ,样本 应 该 从 总 体 中 随机 抽取 的 ,要 求 样 本 与 总 体 具有 相同 
的 分 布 。 如 果 总 体 的 参数 是 已 知 的 ,可 以 用 假设 检验 的 方法 来 检验 某 个 样本 是 否 从 总 体 
中 随机 产生 的 。 一 般 情况 下 总 体 是 未 知 的 , 正 是 我 们 的 研究 对 象 ,而 且 是 需要 根据 由 观 
测 资料 所 组 成 的 样本 来 研究 。 因 此 样本 的 采集 和 抽取 都 必须 服从 一 定 的 准则 ,使 用 科学 . 
的 抽样 方法 ,以 保证 样本 具有 良好 的 代表 性 。 在 考古 学 的 研究 中 ,考古 学 家 所 掌握 的 资 
料 ,往往 是 通过 考古 学 特殊 的 具有 自身 学 科 特 点 的 方法 所 获得 的 。 当 利用 局 部 的 考古 资 
料 对 总 体 、 对 更 大 地 域 范围 .更 大 时 间 跨 度 的 古代 社会 作 推断 时 ,也 必须 考虑 我 们 所 掌握 
的 考古 资料 ,考古 样本 能 否 “代表 "总 体 ,代表 古代 社会 。 如 果 缺 乏 * 代 表 性 ” ,那么 在 对 总 
体 的 推断 中 尽管 正确 使 用 了 第 5-11 章 介绍 的 统计 学 的 各 种 方法 ,也 难免 会 得 出 不 完全 正 
确 、 甚 至 错误 的 结论 。 

下 面 通过 一 些 实例 来 说 明 抽样 问题 的 重要 性 。 先 看 一 个 也 许 是 有 点 极端 的 假想 例 
子 。 某 个 社会 统计 机 构 派 出 两 位 调查 统计 员 调 查 统计 北京 市 就 业 人 员 的 平均 工资 。 其 
中 的 一 位 到 居民 小 区 和 建筑 工地 调查 了 几 百 位 物业 管理 人 员 、 施 工 工人 、 保 安 员 和 电梯 
驾驶 员 ,得 出 月 平均 工资 为 600+ 180 元 , 另 一 位 专门 找 了 几 百 位 写字 楼 中 的 白领 ,他 们 的 
平均 工资 为 4000 + 1500 元 。 显 然 这 两 个 样本 对 于 “北京 市 就 业 人 员 的 平均 工资 "这 个 总 
体 都 缺乏 代表 性 ,两 个 样本 中 个 体 的 工资 分 布 是 不 一 致 的 ,与 总 体 中 的 工资 分 布 也 不 一 
致 。 因 此 这 两 个 样本 都 不 是 无 偏 的 样本 。 为 了 正确 统计 北京 市 就 业 人 员 的 平均 工资 , 需 
要 制定 一 个 经 仔细 考虑 ,并 符合 抽样 基本 原则 的 调查 方案 。 作 为 不 科学 抽样 导致 错误 结 
论 的 例子 ,还 可 以 举 出 美国 《文学 文摘 》( Literary Digest) 杂志 组 织 的 民意 调查 错误 预测 了 
1936 年 的 总 统 选举 ,很 多 统计 学 书 中 都 提 到 这 个 例子 。《 文 学 文摘 》 曾 于 1932 年 组 织 了 
民意 调查 并 正确 地 预测 了 当年 的 总 统 选举 ,预测 的 选举 票数 和 实际 的 票数 相差 小 于 1%。 
1936 年 《文学 文摘 》 根 据 所 掌握 的 电话 黄页 和 一 些 俱乐部 的 名 册 发 出 了 1000 万 封 调 查 
信 , 收 到 200 万 份 回复 。 回 复 的 信 中 压倒 多 数 支持 共和 党 候选 人 兰 登 ,但 实际 的 选举 结果 
是 民主 党 的 罗斯 福 得 到 了 61% 的 选票 ,而 兰 登 才 得 到 39% 的 支持 。 为 什么 《文学 文摘 ) 的 
预测 偏离 真实 如 此 远 呢 ? 因为 当时 拥有 电话 或 参加 各 种 俱乐部 的 是 富 人 的 比例 大 ,而 且 
对 调查 作出 回应 的 更 是 对 美国 30 年 代 经 济 衰退 时 期 罗斯 福 的 政策 不 满 的 那 部 分 富 人 。 
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因此 这 200 万 份 回复 所 组 成 的 样本 是 有 明显 的 倾向 性 的 ,没有 按 应 有 的 比例 反映 中 等 收 
人 者 和 穷人 的 意见 ,样本 离 “ 无 偏 "其 远 。1936 年 ,美国 盖 洛 普 民 意 学 会 却 正确 地 预测 了 
罗斯 福 的 胜利 。 因 为 盖 洛 普 根 据 选 民 的 地 区 ,性别 、 年 龄 ,特别 是 收入 和 财富 情况 按 相 应 
的 比例 发 出 了 调查 信 , 盖 洛 普 的 调查 接近 于 本 章 后 面 要 介绍 的 分 层 抽 样 。 

总 之 ,科学 地 抽样 对 统计 推断 是 十 分 重要 的 ,抽样 方法 本 身 也 属于 统计 学 中 的 重要 
组 成 部 分 。 


12.2 抽样 方法 简介 


为 了 样本 具有 良好 的 代表 性 ,研究 发 展 了 多 种 科学 抽样 的 方法 。 下 面 将 介绍 简单 随 
机 抽样 ,分 层 抽 样 ,集团 抽样 和 系统 抽样 等 常用 的 方法 。 实 际 工作 中 采用 哪 种 抽样 方法 
以 及 所 抽取 的 样本 应 包含 多 少 个 实体 。 取 决 于 总 体 的 性 质 ,研究 的 目的 ,所 要 求 的 判断 
置信 和 度 以 及 研究 者 可 能 掌握 的 研究 时 间 , 人 力 和 经 费 等 ,需要 统筹 考虑 这 些 因素 。 这 些 
抽样 方法 的 基本 原则 也 是 适合 于 考古 学 研究 的 ,可 以 利用 这 些 基本 原则 来 考察 实际 考古 
资料 的 代表 性 。 至 于 具体 的 抽样 方法 与 考古 研究 关系 较 密切 的 是 系统 抽样 方法 ,将 在 
12.2.4 节 中 讨论 。 


12.2.1 简单 随机 抽样 


简单 随机 抽样 是 最 基本 的 抽样 方法 。 我 们 先 介绍 随机 数 和 随机 数 表 的 概念 ,设想 有 
一 个 口袋 ,其 中 放 和 人 刻 有 0,1……9 的 球 。 袋 中 每 个 号 码 的 球 的 数量 是 相等 的 ,譬如 说 都 
是 20 个 ,那么 袋 中 共有 200 个 球 。 现 从 中 任意 抽取 一 个 ,记录 球 的 号 码 数 后 ,将 球 放 回 ， 
混 名。 然后 再 抽 一 个 , 按 次 记录 ,再 放 回 。 如 此 一 直 进行 下 去 ,就 得 到 一 张 随 机 数 表 ,如 
Ж 12-1 所 示 。 表 12-1 包含 了 从 0 到 9 共 1152 个 随机 数 , 是 1152 次 抽取 结果 的 记录 。 上 
述 建 立 随机 数 表 的 过 程 实际 上 就 是 回放 的 简单 随机 抽样 过 程 。 表 12-1 所 含 的 随机 数 数 
量 比较 小 ,很 多 统计 软件 ,如 SPSS 等 都 可 以 产生 随机 数 。 严 格 地 说 统计 软件 产生 的 随机 
数 称 为 伪 随 机 数 , 但 不 影响 我 们 的 使 用 。 表 12-1 所 列 的 随机 数 和 一 般 说 的 随机 数 都 是 指 
均匀 分 布 的 随机 数 , 某 些 统计 软件 还 可 产生 其 他 分 布 的 随机 数 ,例如 按 标准 型 正 态 分 布 
的 随机 数 等 。 


表 12-1 0 一 9 的 1152 个 随机 数 表 


行 、 列 1 2 3 4 5 6 7 8 
9895 9659 8996 0938 5774 8057 0644 0152 
0262 9271 0058 7705 0499 7138 1694 3730 
2456 0629 7789 6914 5739 2070 2838 2552 
4110 8905 9003 7969 6713 9146 8760 1189 


5218 7527 2898 8788 6991 4744 1048 1130 
8129 6859 5443 6211 0826 0953 1485 7849 
9482 3617 8154 7629 6036 3808 9799 4215 


\ 

1 

2 

3 

4 

5 1170 2789 8101 9133 8613 | 2652 7050 1187 
6 

7 

8 

9 3807 1837 5403 6543 1913 4482 8862 2105 
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AR 
ЖАЯ 1 2 3 4 5 6 7 8 

10 3394 4006 4642 3112 0848 3433 5376 6754 
11 9973 6613 2782 3003 5167 3397 7029 6075 
12 0629 6396 8754 6679 0311 9130 2688 1025 
13 1979 9928 4464 0175 5316 6178 1458 6863 
14 5810 4788 3510 9107 4945 4720 7031 6181 
15 9106 7178 6186 4216 1037 9040 5091 9767 
16 8720 5198 2417 0081 6979 4115 9921 7131 
17 9321 8550 4375 8826 3496 5735 5763 6335 
18 1320 7097 8529 2908 9390 2483 4785 0278 
19 3578 3175 8943 2230 8147 9158 9953 0544 
20 5794 2418 1574 9371 7657 1844 6904 4788 
21 0613 7837 5338 6056 9835 5272 7501 8586 
22 4486 6922 3026 6875 4655 0325 0890 0298 
23 8031 6031 4584 6007 5015 6965 3182 2171 
24 8296 8604 1880 7050 9835 6794 2210 7759 
25 6846 1692 3979 2019 2514 9075 1500 5805 
26 1974 5609 1505 8869 9909 6199 1267 3680 
27 2912 1389 9941 0395 8868 8099 2638 9219 
28 8096 4186 7808 9588 9931 9218 4368 7952 
29 0408 0484 3211 1370 4163 4764 7958 9927 
30 9757 9006 9469 9324 3464 4539 5434 3477 
31 1887 2470 7381 4843 1542 9309 0800 0405 
32 06566 9560 9287 5771 3021 4969 9316 8470 
33 4471 6851 9722 5735 8011 5551 3035 9387 
34 4489 0641 6784 3715 2703 8509 2459 7988 
35 2700 5940 5153 7685 4689 7786 1583 7625 
36 4248 9670 6768 4740 5733 4504 7859 5828 


利用 随机 数 表 的 帮助 ,可 以 进行 简单 随机 抽样 。 例 如 对 图 12-1 所 示 的 一 块 地 ,我 们 
希望 在 上 面 随机 分 布地 打 20 个 探 孔 。 怎 样 随 机 地 选择 探 孔 的 位 置 呢 。 第 一 步 把 这 块 地 
按照 长 和 宽 的 比例 分 成 14x7=98 个 面积 相等 的 接近 正方 形 的 小 地 块 。 分 割地 块 的 行 数 
和 列 数 可 以 变动 ,但 小 地 块 的 总 数 至 少 应 是 探 孔 数 的 若干 倍 。 这 里 按 14 x 7 分 割 是 为 了 
使 小 地 块 的 总 数 小 于 100, 这样 取 两 位 随机 数 就 可 以 确定 探 孔 的 位 置 。 对 这 些 正 方形 地 
块 先 按 行 、 再 按 列 编号 ,从 第 00 号 编 到 第 97 号 (图 12-1 中 只 显示 了 被 选中 的 小 地 块 的 编 
号 )。 第 二 步 从 表 12-1 的 任 一 行 任 一 列 开 始 ,譬如 从 第 7 行 第 6 列 开始 ,每 2 个 2 个 的 顺 
序 取 数 。 结 果 为 09,53,14,85 ,78 ,49 ,94 ;82 ，…… 等 共 20 个 数 , 相 应 编号 的 正方 形 地 块 被 
选中 ,并 在 图 12-1 中 标 出 。 在 顺序 取 数 时 ,如 果 遇 到 大 于 97 的 两 位 数 ( 本 例 中 兽 遇 到 
“99”) ,或 某 一 个 两 位 数 重 复出 现时 ,应 予 舍弃 ,并 继续 顺序 取 数 。 取 数 的 顺序 可 以 先 按 
行 ,也 可 以 先 按 列 , 也 可 以 每 跳 一 格 取 数 。 这 样 就 随机 确定 了 20 个 探 孔 的 位 置 。 
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图 12-1 利用 随机 数 表 从 98 块 面积 相等 的 地 块 中 随机 选取 20 个 地 块 


简单 随机 抽样 方法 在 社会 现象 研究 ,在 工厂 的 产品 检验 中 经 常 被 应 用 ,但 在 考古 调 
查 的 探 孔 和 探 方 布局 中 应 用 受 限 。 因 为 简单 随机 抽样 安排 探 孔 点 位 置 的 结果 ,经 常会 出 
现 有 的 区 域 探 孔 点 密集 ,而 在 另外 的 区 域 缺少 探 孔 点 的 情况 。 这 在 图 12-1 中 也 有 表现 ， 
右 下 区 和 左面 偏 上 区 被 选中 的 小 地 块 的 密度 大 ,而 右上 和 左下 区 域 的 地 块 很 少 有 被 选中 
的 。 关 于 考古 调查 中 探 孔 的 布局 经 常 是 使 用 系统 抽样 方法 ,这 将 在 后 面 讨论 。 


12.2.2 简单 随机 抽样 中 样本 容量 的 确定 


在 上 面 的 例子 中 ,并 未 说 明 为 什么 要 打 20 个 探 孔 ,可 能 是 因 探 孔 目的 以 及 经 费时 间 
等 因素 而 定 的 。 如 果 抽 样 的 目的 是 为 了 根据 样本 对 总 体 的 参数 作 估计 ,那么 对 样本 的 容 
量 就 有 确定 的 要 求 了 。 下 面 分 别 讨论 估计 总 体 平 均值 和 比例 数 时 怎样 根据 估计 中 的 置 
信和 度 (1 - a) 要 求 和 估计 中 所 能 容忍 的 偏差 4 来 确定 样本 的 容量 。 
(一 ) 对 总 体 平均 值 的 估计 。 
在 5.3.3 小 节 曾 给 出 对 总 体 平均 值 置信 和 度 为 (1 - o) 的 区 间 估 计 的 半 宽 度 为 
d = 25 (12-1) 
式 中 Zs 是 置信 和 度 为 (1 - а) 时 的 置信 ,一般 a W 0.05, 对 标准 型 正 态 分 布 Zs = Zoos 
= 1.96.0 是 总 体 的 标准 差 。 如 果 o 未 知 ,可 以 先 抽取 一 个 小 样本 ,测量 计算 小 样本 的 标准 
差 ;, 用 s 替代 oa。 式 (12-1) 中 的 ”是 需要 确定 的 样本 的 最 小 容量 。 式 (12-1) 可 以 改写 为 
%ха? 222 2 
2. е ,或 者 n= 096067 -二 (12-2) 
式 中 的 d 是 估计 值 和 真实 值 之 间 可 以 容忍 的 差别 。 
实例 ”要 求 以 0.95 的 置信 和 度 估计 中 国 男 子 的 平均 身高 ,估计 值 和 真实 值 之 间 可 以 容 
忍 的 差别 不 大 于 0.2 m, 计算 最 少 需 要 抽取 多 少 个 个 体 no 
为 了 利用 公式 (12-1) 求 n, 首先 要 知道 中 国 男 子 身高 的 标准 差 c。 如 果 ЖА, NARE 
机 抽取 一 个 小 样本 ,例如 先 抽取 50 人 ,测定 其 标准 差 , 辟 如 说 得 到 s = 5cm。 代 人 式 (12-2) 得 


3.84 х 5° 
ж = 2400( 人 ) 


随机 抽取 和 测量 了 2400 个 男子 的 身高 后 ,可 以 再 计算 这 个 大 样本 的 标准 差 so, 验证 与 
5cm 有 多 大 偏离 ,是 否 可 以 容忍 ,考虑 是 否 需 要 再 增加 抽样 数量 。 
中 国 男子 的 身高 这 个 总 体 包含 了 好 几 亿 个 个 体 , 接 近 于 无 限 总 体 。 但 有 的 情况 下 ， 


п = 
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总 体 包 含 的 实体 数 w 不 很 大 。 这 种 情况 称 为 有 限 总 体 ,考古 总 体 多 数 为 有 限 总 体 。 对 于 
有 限 总 体 公 式 (12-2) 要 作 相 应 的 修正 。 
Мх 7% х о? 
= P(N - 1) + 7% х о? 
当 总 体 包含 的 个 体 数 NW 很 大 时 ,分 母 上 的 第 二 项 可 以 搁 略 不 计 , 而 且 N = (N - 1), 公式 
(12-3) 还 原 成 公式 (12-2)。 
(二 ) 对 总 体 比 例 数 的 估计 。 


(12-3) 


n 


第 八 章 的 公式 (8-2) 给 出 
总 体 比例 数 的 估计 误差 = а = Zs Ур(1-р)/п (12-4) 
这 个 式 子 可 改写 成 


n= 2% ва. (12-5) 


式 中 的 Zs KERESD M E ЕМЕШ, РЕЖІМ ЕЖ. ЖІЛІЗ (12-5) 可 以 在 选 
定 的 置信 和 度 (1 - а) 和 容忍 度 d 的 条 件 下 ,计算 为 估计 总 体 的 比例 数 р 最 少 所 需 抽 取 的 实 
体 数目 。 如 果 样 本 的 比例 数 p 未 知 ,可 以 先 随机 抽取 少量 个 体 ,用 小 样本 的 8 值 代 入 公式 
(12-5) 进行 计算 , 待 正 式 抽样 后 再 验证 小 样本 的 比例 数 是 否 可 以 接受 。 

对 于 有 限 总 体 , 当 抽 样 的 个 体 数 а 与 总 体 所 包含 的 个 体 数 N 可比 时 


(例如 :号 > 0.05), 公式 (12-5) 也 要 作 修正 : 
N x 2% хрх (1-р) 
"T PN -1) + Z4 хрх (1-р) 


实例 : ERMAR ТЕ (2004) 8 bhe RR F 2003 年 爆发 的 非典 型 性 肺炎 死亡 
率 的 例子 。 据 我 国 权威 人 士 统计 ,非典 患者 的 死亡 率 不 超过 6% 。 但 香港 报刊 报道 死亡 
率 为 10% ~ 12% ,而 世界 卫生 组 织 的 专家 估计 死亡 率 达 15%。 如 果 要 求 估计 死亡 率 的 置 
信和 度 为 95% ,估计 误差 不 超过 1.5% ,至 少 需要 由 多 少 名 非典 病人 组 成 的 样本 ,才能 达到 
这 个 要 求 。 利 用 公式 (12-5) 计算 样本 容量 n 时 ,应 该 知道 了 的 数值 ,可 是 3 个 来 源 对 死亡 
率 的 估计 有 明显 差别 ,我 们 取 р = 0.15% ,因为 这 样 计算 得 到 的 n 值 最 大 , 比较 保险 。 代 
人 式 (12-5) 计 算 


(12-6) 


(1.96)? х 0.15 х 0.85 
_ = 2177 
” (0.015)? (人 ) 


即 至 少 需要 抽取 一 个 含有 2177 名 非典 患者 的 样本 。 我 们 知道 我 国 的 非典 患者 为 5327 人 ， 
加 上 加 拿 大 ,新 加 坡 等 地 的 患者 ,完全 有 足够 的 非典 病例 个 案 对 死亡 率 作 出 95% 的 置信 和 度 ， 
误差 小 于 1.5% 的 估计 。 但 上 面 3 个 资料 分 析 来 源 对 死亡 率 的 估计 的 差别 远大 于 1.5%。 
出 现 这 种 情况 可 能 是 因为 3 个 来 源 使 用 的 样本 是 不 一 样 的 ,病人 所 受到 的 治疗 方案 不 一 样 。 
从 统计 学 的 角度 分 析 ,3 个 来 源 所 使 用 的 样本 中 包含 了 对 总 体 而 言 不 是 无 偏 的 样本 。 


12.2.3 分 层 抽样 和 集团 抽样 | 
分 层 抽样 又 称 分 类 抽样 。 在 本 章 的 引言 中 提 到 了 统计 北京 市 就 业 人 员 平 均 工资 的 
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例子 。 无 论 是 调查 居民 区 和 建筑 工地 物业 管理 人 员 、 施 工 工人 、 保 安 员 和 电梯 驾驶 员 的 
工资 ,还 是 调查 写字 楼 中 白领 工资 的 数据 ,它们 对 于 总 体 而 言 都 是 有 偏 的 样本 ,缺乏 代表 
性 。 因 为 总 体 包含 了 各 层次 工资 水 平 的 人 群 。 对 于 这 种 本 身 存 在 层次 的 总 体 ,很 多 情况 
下 估计 其 某 个 数值 型 随机 变量 的 平均 值 是 没有 意义 的 ,例如 估计 幼儿 园 全 部 人 员 的 平均 
身高 或 平均 年 龄 等 是 毫 无 意义 的 。 但 有 时 仍 会 被 要 求 对 这 种 分 层 总 体 的 某 个 变量 平均 
值 作 估计 ,总 体 的 平均 值 仍 有 一 定 意义 。 例 如 对 北京 市 全 部 就 业 人 员 平 均 工资 的 估计 应 
该 是 预测 北京 市 市 场 的 一 个 参考 因素 。 对 于 这 类 总 体 平均 值 的 估计 ,需要 用 分 层 抽 样 的 
方法 来 抽取 样本 , 先 把 就 业 人 员 分 成 从 老总 、 高 层 白 领 一 般 职 员 、…… 到 清洁 工 等 各 种 
层次 的 实体 ,再 从 各 层次 中 抽样 。 

分 层 抽样 的 基本 思想 和 程序 是 ,首先 根据 我 们 对 总 体 已 有 的 知识 ,将 总 体 的 NN 个 个 
体 分 成 若干 组 ,每 一 组 Wi 个 个 体 之 间 的 差别 应 该 尽量 小 ,用 少量 抽样 得 到 各 组 方差 的 粗 


略 值 弛 ,然后 以 们 为 权 计 算 总 体 的 加 权 方 差 , 第 二 步 按照 估计 和 置信 度 (1 - а) 和 容忍 度 4 
的 要 求 和 加 权 方差 值 计算 总 共 需 要 抽取 多 少 个 个 体 n。 再 按照 各 组 标准 差 的 粗略 值 s; 和 


BO 计算 每 组 需要 抽取 的 个 体 数 的 比例 数 , 最 后 将 总 共 需 要 抽取 的 个 体 数 п 按 比例 分 


到 各 组 。 分 层 抽 样 适用 于 组 内 差别 小 而 组 间 差 别 大 的 总 体 。 

在 考古 学 研究 中 分 层 总 体 不 常见 ,而 且 即 使 遇 到 了 分 层 总 体 ,也 难以 估计 各 组 的 权 
重 。 分 层 抽 样 在 考古 研究 中 难得 应 用 ,也 许 把 分 层 的 各 组 作为 若干 个 独立 的 总 体 来 对 待 
更 为 合适 。 因 此 我 们 对 分 层 抽样 的 讨论 仅 限于 上 述 的 基本 原理 。 

与 分 层 抽样 对 立 的 是 集团 抽样 ,后 者 适用 于 组 内 差别 大 而 组 间 差 别 小 的 可 分 组 总 
体 。 还 是 以 北京 市 就 业 人 员 平 均 工资 的 统计 为 例 , 也 许 选 几 个 集团 公司 的 全 体 人 员 作 为 
调查 对 象 会 得 到 比较 接近 真实 的 结果 。 因 为 每 个 集团 中 都 有 老总 、 白 领 \ 蓝 领 一 般 职 
员 ,以 及 保安 、 清 洁 工 等 各 类 人 员 ,而 且 各 类 人 员 的 组 成 比例 也 应 比较 接近 全 市 各 类 就 业 
人 员 的 组 成 比例 。 集 团 抽样 的 优点 是 省 时 省 钱 , 得 到 结果 快 。 但 需要 注意 集团 本 身 的 代 
表 性 ,如果 选取 一 个 行将 破产 的 集团 作 调查 ,调查 结果 将 显著 偏离 总 体 的 平均 状态 。 集 
团 抽样 在 考古 研究 中 的 应 用 似乎 也 不 普遍 。 


12.2.4 系统 抽样 和 考古 调查 中 的 探 孔 布局 和 探 方 尺寸 问题 
系统 抽样 的 程序 是 这 样 的 。 先 把 总 体 的 N 个 个 体 按 某 个 因素 排列 。 确 定 总 共计 划 抽 


取 的 个 体 数 n, 这 样 抽 样 间隔 + = 全 ,在 第 一 间隔 的 r 个 个 体 中 任 选 一 个 为 抽样 的 起 始 


点 ,向 后 面 每 隔 r 个 个 体 抽样 总 共 将 抽取 п 个 个 体 组 成 样本 。 由 于 在 第 一 间隔 中 抽样 起 
始点 的 选取 是 任意 的 ,总 体 中 每 个 个 体 就 有 同等 的 概率 被 抽取 , 因此 系统 抽样 仍 不 失 其 
随机 性 。 决 定 总 体 个 体 排 列 的 因素 和 抽样 研究 的 目的 可 以 有 关 , 也 可 以 无 关 , 总 体 也 可 
以 按 随机 数 排列 。 需 要 注意 的 是 ,如 果 排 列 后 的 个 体 的 某 种 属性 的 取 值 有 局 期 性 ,而 抽 
样 研究 的 目的 又 与 该 属性 有 关联 时 ,系统 抽样 的 样本 可 能 会 有 系统 偏差 。 例 如 调查 某 公 
园 全 年 每 日 游客 的 平均 数 , 按 7 天 间隔 抽样 。 有 可 能 都 是 抽取 每 闪 周 日 的 游客 数 ,样本 
的 平均 值 会 显著 偏 高 , 另 一 种 情况 是 抽样 日 都 不 是 周末 ,例如 每 个 星期 三 ,样本 的 平均 值 
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可 能 会 稍 偏 低 。 因 此 在 这 个 调查 中 系统 抽样 的 间隔 不 应 该 取 7 天 ,系统 抽样 的 间隔 周期 
与 被 研究 对 象 的 变化 周期 不 应 该 同步 。 

系统 抽样 方法 在 考古 调查 的 探 孔 布局 方案 中 得 到 应 用 。 例 如 要 在 一 定 面积 的 地 块 
上 外 一 定数 量 的 探 孔 ,系统 布置 探 孔 比 随机 布置 有 更 高 的 概率 发 现 遗 址 。Champion 
(1996) 曾 对 此 作 了 专门 的 研究 ,他 计算 表明 ,在 探 孔 总 数 确定 的 条 件 下 , 按 正三 角形 布置 
探 孔 比 按 正 方形 布置 , 探 孔 处 于 遗址 部 位 的 概率 更 高 (这 里 Champion 把 莫 芋 等 有 一 定 面 
积 的 遗存 也 称 为 遗址 )。Champion 在 一 块 357 х 1429 米 的 地 块 上 按 正 三 角形 布置 了 探 孔 
(WE 12-2)。 


图 12-2 探 孔 按 正三 角形 布局 的 一 个 例子 (示意 图 ) 


图 中 地 块 的 宽度 - 357m ,地 块 长 度 L = 1429m ,正三 角形 的 边 长 i = 88.3m , 探 孔 


的 行距 ，- 3 = 76.5m, 探 孔 的 行 数 ， = 5, 探 孔 至 长 边 的 距离 。= 1-(357- sU -1)) 


= 25.5т, е = 32 在 这 个 调查 中 他 发 现 了 一 个 遗址 , 它 的 最 大 线性 长 度 是 128 Ж. A 


外 Champion 计算 表明 ,在 上 述 的 探 孔 布局 方案 中 ,只 要 遗址 的 中 心 处 于 上 面 的 地 块 中 ,并 
且 其 直径 大 于 102 米 ,那么 至 少 会 有 一 个 探 孔 位 于 该 遗址 的 位 置 上 。 但 是 探 孔 处 在 遗址 
的 位 置 上 ,并 不 能 保证 一 定 能 发 现 遗 址 ,特别 是 当 遗 物 在 遗址 的 分 布 是 稀 朴 的 情况 。 即 
使 探 孔 打 在 遗址 的 部 位 ,但 因 探 孔 本 身 的 面积 不 大 ,而 遗物 密度 又 小 , 探 孔 取样 中 完全 有 
可 能 见 不 到 任何 一 件 遗 物 ,从 而 不 能 识别 探 到 了 遗址 。“ 探 孔 处 于 遗址 部 位 ”和 “ 探 孔 确 
定 了 遗址 的 存在 "是 两 个 不 同 的 概念 。 真 正 发 现 遗 址 的 概率 还 与 探 孔 ( 探 方 ) 本 身 的 面 
积 , 以 及 遗物 在 遗址 范围 中 的 分 布 密度 和 分 布 模式 有 关 。Champion 对 这 块 地 块 进 行 了 全 
面 的 考古 发 掘 ,然后 他 根据 实际 发 掘 的 资料 , 反 推 在 上 述 的 探 方 布局 条 件 下 探 方 本 身 的 
面积 是 怎样 影响 探测 到 遗址 的 存在 。 其 研究 结果 用 图 12-3 中 偏 下 面 的 一 条 曲线 来 显示 。 

该 图 的 Y 轴 显示 发 现 址 址 的 概率 ,X 轴 表 示 探 方 的 面积 。 可 以 看 到 随 探 方面 积 的 增 
大 ,遗址 被 发 现 的 概率 也 增加 。 这 应 该 是 不 言 而 喻 的 ,但 值得 注意 的 是 图 上 曲线 的 增长 
有 一 个 转折 点 , 当 探 方 的 面积 扩大 到 一 定 程度 (10 一 15 平方 米 ) 后 ,遗址 被 发 现 的 概率 已 
接近 90% ,再 增 大 探 方 的 面积 ,遗址 被 发 现 的 概率 增加 就 很 慢 了 。 也 就 是 说 在 地 块 的 考 
古 调查 中 探 方 不 必 开 得 太 大 ,以 节省 工时 。 考 古 调查 中 探 方 的 密度 和 面积 也 因 调 查 的 目 
的 而 异 ,为 寻找 农业 时 代 的 聚落 或 石器 时 代 游 牧 的 营地 ,后 一 种 情况 下 探 方 的 密度 应 安 
排 高 些 、 探 方 的 面积 也 应 大 些 。 总 之 统计 学 中 系统 抽样 的 某 些 思想 可 为 考古 调查 中 布局 
探 孔 和 探 方 时 参考 , 既 要 保证 不 出 现 重 要 的 遗存 如 墓葬 等 被 漏 查 的 旭 丛 的 情况 ,又 要 追 
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图 12-3 探 方 的 面积 和 探 方 确定 遗址 存在 概率 的 关系 曲线 


求 调 查 的 效率 和 降低 费用 。 
12.3 考古 研究 中 样本 与 总 体 关 系 的 某 些 特殊 问题 


阅读 本 书 第 五 章 到 第 十 一 章 的 内 容 , 读 考 会 明确 地 感觉 到 ,样本 与 总 体 间 的 关系 问 
题 ,是 各 类 统计 推断 的 中 心 问 题 。 统 计 推 断 遵 循 着 这 样 一 个 逻辑 :样本 来 自 一 个 比 它 容 
量 大 的 多 的 ,甚至 是 无 限 容量 的 总 体 ,样本 应 该 是 从 总 体 中 随机 抽样 得 到 的 ,是 总 体 的 一 
部 分 并 能 “代表 "总 体 。 样 本 是 我 们 所 能 掌握 的 数据 资料 ,而 我 们 真正 感 兴趣 的 是 总 体 。 
统计 推断 给 出 了 一 系列 的 方法 ,技术 帮助 我 们 根据 样本 来 推断 总 体 的 性 质 ,并 且 给 出 了 
推断 的 置信 度 和 误差 。 考 古 学 是 利用 考古 发 据 所 得 的 古代 遗存 来 推断 古代 人 类 社会 情 
况 的 科学 , 当 我 们 使 用 统计 推断 的 各 种 技术 ,从 遗物 遗存 来 推断 古代 社会 时 ,我们 也 许 会 
[в] ,我 们 所 掌握 的 实物 资料 是 从 怎样 的 总 体 中 来 的 ,它们 是 不 是 无 偏 的 随机 样本 ,能 否 代 
表 总 体 。 这 类 问题 的 答案 ,有 时 是 直接 明晰 的 ,有 时 却 不 是 那么 清晰 。 下 面 通 过 三 个 具 
体例 子 进一步 探讨 考古 样本 和 考古 总 体 的 关系 问题 。 

1. 考古 学 家 发 据 了 一 个 石器 时 代 遗 址 ,发 现 有 几 万 件 甚至 十 几 万 件 石器 石 片 遗存 ， 
随机 采集 了 几 千 件 。 这 里 样本 与 总 体 的 关系 是 明确 的 ,总 体 是 遗址 中 全 部 石器 石 片 ,而 
抽取 的 几 千 件 石器 石 片 就 是 样本 。 通 过 对 这 几 千 件 石器 石 片 的 分 类 ,石料 质地 的 分 析 和 
几何 尺寸 的 测量 ,统计 学 的 方法 可 以 帮助 正确 推断 该 遗址 全 部 石器 石 片 中 各 类 石器 的 百 
分 比 ,使 用 各 类 石料 的 百分比 ,各 类 石器 的 平均 尺寸 等 ,而 且 能 为 这 些 推 论 赋 以 定量 的 置 
信和 度 和 误差 们 计 。 | 

2. 第 二 个 例子 是 对 某 个 青铜 时 代 聚 落 遗 址 进行 了 考古 发 掘 ,确定 它 分 为 前 后 两 期 。 
从 两 期 的 堆积 中 都 发 现 了 大 型 陶 钠 (以 下 简称 陶 铅 ) ,推测 为 储藏 粮食 使 用 。 经 对 部 分 陶 
负 的 修复 和 测量 ,得 知 前 后 两 期 大 型 陶 缸 平均 容积 90% 置 信和 度 的 估计 区 间 分 别 为 35 + 5 
和 52+4 升 。 当 然 我 们 可 以 进一步 做 i 检验 ,判断 两 期 陶 铅 总 体 的 平均 容积 有 没有 显著 
差异 。 问 题 是 应 该 怎样 理解 两 期 陶 灸 的 总 体 。 一 种 可 能 是 将 该 聚落 遗址 前 后 两 期 曾经 


136 ”定量 考古 学 


使 用 的 全 部 大 型 陶 铅 设想 为 两 个 总 体 。 当 然 不 可 能 复原 全 部 破损 的 陶 钠 ,这 仅 是 两 个 假 
想 的 总 体 ,而 且 是 实体 数 有 限 的 总 体 。 但 是 根据 所 复原 和 测量 了 的 两 期 部 分 陶 钢 的 容积 
(它们 是 从 总 体 中 抽取 的 样本 ), 1 检验 可 以 以 相当 高 的 置信 和 度 推 断 , 认 为 该 察 落 两 期 陶 铅 
的 容积 发 生 了 明显 的 变化 。 考 十 学 家 也 许 更 感 兴趣 的 是 ,该 聚落 所 在 地 区 青 钢 时 代 的 陶 
负 前 后 期 是 否 发 生 了 变化 。 这 样 就 把 该 地 区 同类 青铜 文化 各 聚落 前 后 两 期 的 全 部 陶 负 
设想 为 两 个 总 体 。 那 么 前 面 局 限于 对 某 个 聚落 所 作 统 计 推 断 所 得 到 的 结论 能 否 推广 到 
地 区 呢 。 这 就 要 考察 对 于 陶 铅 的 容积 而 言 , 该 聚落 遗址 是 否 有 代表 性 ,典型 性 。 这 类 似 
于 集团 抽样 的 情况 ,需要 分 析 集 团 抽 样 的 样本 是 不 是 无 偏 的。 为 此 需要 在 该 地 区 另 找 若 
干 处 青铜 聚落 遗址 ,分 析 比 较 两 期 陶 龟 容积 在 遗址 间 的 一 致 性 。 如 果 一 致 性 检验 被 通 
过 ,各 遗址 陶 钠 容积 数据 就 可 以 合并 处 理 , 并 可 以 对 该 地 区 青铜 时 代 全 部 聚落 前 后 两 期 
陶 钠 的 容积 变化 作 统 计 推 断 。 如 果 一 致 性 检验 被 否定 ,说明 各 聚落 的 陶 钠 可 能 不 属于 同 
一 类 型 ,谈论 各 聚落 全 部 陶 缸 也 就 失去 意义 了 。 

顺便 指出 这 里 的 推断 仅 限于 两 期 陶 铅 的 容积 。 考 十 学 家 也 许 会 推测 这 类 大 型 陶 镶 
的 功能 是 为 存放 粮食 ,并 依据 后 期 陶 铅 容积 的 增 大 进一步 推测 是 反映 家 庭 人 口 的 增长 。 
这 种 推测 也 许 是 对 的 。 但 是 统计 推断 两 期 陶 怒 的 容积 变化 的 置信 和 度 与 推测 两 期 家 庭 人 
口 增长 的 可 靠 性 的 关系 并 不 是 直接 的 。 

3. 在 某 个 地 区 进行 了 全 面 的 考古 调查 和 发 掘 ,发现 两 期 聚落 遗址 各 10 个 ,并 测量 了 
面积 。 因 为 考古 调查 是 全 面 详 尽 的 , 极 少 有 聚落 被 遗漏 。 这 种 情况 下 样本 和 总 体 是 接近 
一 致 的 ,再 讨论 “根据 样本 来 推断 总 体 "似乎 显得 勉强 。 那 么 前 面 介 绍 的 各 种 统计 推断 技 
术 还 能 否 用 于 这 样 的 数据 呢 。 技 术 层 面 的 答案 是 肯定 的 ,因为 照样 可 以 计算 两 期 聚落 的 
平均 面积 和 标准 差 , 璧 如 得 到 0.6+0.4km 和 1.1+t0.4km。 也 可 以 作 :检验 ,有 91% 的 
置信 和 度 判 断 两 期 聚落 的 面积 有 差异 。 还 可 以 在 不 同 的 置信 度 下 计算 两 期 聚落 的 面积 差 
值 的 估计 区 间 ,如 果 取 置信 度 为 80% ,那么 差 值 的 估计 区 间 是 0.5+0.36km?。 但 是 这 样 
处 理 数据 、 作 统计 推断 还 有 没有 实际 的 考古 意义 呢 ? 显然 这 种 情况 下 的 总 体 完 全 是 假想 
的 ,从 总 体 和 样本 关系 的 角度 看 ,所 进行 统计 推断 的 目的 似乎 是 模糊 的 。 但 是 我 们 认为 ， 
数据 的 统计 处 理 还 是 有 意义 的 ,其 实际 意义 在 于 说 明 一 个 事实 , 即 这 个 实例 中 数据 的 容 
量 是 足够 大 的 。 因 为 数据 容量 大 ,我们 能 以 相当 高 的 置信 度 来 判断 两 期 聚落 面积 的 差 
别 ,或 者 说 所 观测 到 的 差别 不 太 可 能 是 因为 我 们 观测 的 取 落 数 太 少 和 由 此 产生 的 随机 涨 
落 所 引起 的 。 这 给 考古 学 家 对 所 掌握 数据 资料 的 质量 以 信心 ,甚至 进一步 帮助 他 们 探讨 
聚落 平均 面积 的 增 大 与 经 济 的 发 展 . 人 口 的 增加 的 关系 等 。 另 一 种 情况 是 ,如 果 两 期 聚 
落 遗 址 的 平均 面积 和 标准 差 不 变 ,但 两 期 的 遗址 数 不 再 是 各 10 个 ,而 仅 为 各 5 个 ,这 样 4 
检验 的 结果 会 认为 两 期 的 面积 未 见 显著 差别 。 说 明 所 研究 的 聚落 数目 太 少 了 ,两 期 聚落 
平均 面积 的 比较 中 存在 较 大 的 不 确定 性 ,当然 更 没有 意义 去 讨论 聚落 面积 与 经 济 ,人 口 
的 关系 了 。 总 之 ,即使 对 总 体 进 行 了 较为 全 面 的 考古 调查 和 发 据 的 情况 ,我 们 依然 可 以 
使 用 统计 推断 的 技术 和 置信 度 等 概念 ,并 有 助 于 判断 所 掌握 数据 资料 的 数量 能 否 作为 高 
置信 度 讨 论 的 依据 。 
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统计 学 作为 随机 数据 处 理 , 分 析 和 推断 的 一 门 学 科 往往 涉及 大 量 的 计算 ,特别 是 多 
元 统计 分 析 , 因 此 统计 学 的 普及 应 用 是 与 计算 机 的 发 展 分 不 开 的 。 在 计算 机 发 展 的 早 
期 ,就 有 软件 公司 和 学 术 单 位 编写 了 各 种 通用 的 和 专用 的 统计 软件 ,其 价格 从 几 十 到 几 
千 美元 不 等 。 著 名 的 通用 的 统计 软件 有 SAS ,SPSS，MiniTab ,Statistica 等 ,另外 专用 于 医学 
和 生物 学 的 有 著名 的 BMDP 软件 ,专用 于 聚 类 分 析 的 CLUSTAN 等 。 鉴 于 统计 学 在 考古 研 
究 中 的 广泛 应 用 ,已 编写 出 版 了 各 种 专用 于 考古 研究 的 统计 软件 包 , 有 的 已 成 为 商品 。 
例如 英国 伦敦 考古 研究 所 编写 的 The Institut of Archaeology Data Analysis Package, X HWE 
松 纳 大 学 人 类 学 系 的 Тһе Archaeologist s Analytical Toolkit， 英 国 兰 彻 斯 特大 学 编写 的 ASP 
和 澳大利亚 悉尼 大 学 人 类 学 系 编写 的 用 于 多 变量 考古 分 析 的 MV-ARCH。 此 外 有 专用 于 
考古 资料 空间 分 布 研究 的 ARCOSPACE( 丹 麦 Aarhus 大 学 编 ) ,专用 于 考古 单元 排序 用 的 
Numerical ordination апа seriation package (法 国 ROZOY 公司 )。 这 些 专用 的 考古 分 析 软 件 一 
般 均 比较 小 ,它们 的 价格 在 100 美元 以 下 ,但 在 我 国 不 容易 得 到 。 

在 我 国 得 到 普遍 应 用 的 统计 软件 是 SAS,SPSS 和 MATLAB 中 的 STATS 部 分 。SPSS 的 
全 名 是 Statistical Package for Social Science, 中 文 称 为 社会 科学 统计 软件 包 。 它 是 目前 国际 
上 得 到 最 广泛 使 用 的 统计 分 析 软 件 之 一 。SPSS 最 早 是 为 大 型 计算 机 开发 的 ,后 来 出 现 了 
个 人 用 的 微机 DOS 版 本 ,但 DOS 版 本 要 求 用 户 学 习 记忆 各 种 命令 ,过 程 和 一 些 语法 规则 ， 
自己 编写 简短 的 程序 。90 年 代 初 出 现 了 SPSS 的 Windows 版 本 ,通过 菜单 ,对 话 框 和 图 标 
按钮 来 完成 操作 ,使 用 非常 方便 。SPSS 的 功能 很 多 很 强 ,与 其 他 软件 间 有 方便 的 数据 转 
换 和 传输 接口 。 

SPSS 虽然 功能 强大 ,但 它 的 微机 版 本 所 占 磁 盘 空间 并 不 多 , 仪 100 EJET, SPSS 
软件 是 不 断 更 新 版 本 的 , 非 最 新 版 本 的 SPSS 程序 往往 可 以 免费 下 载 或 允许 有 限时 段 的 
使 用 。 

国内 出 版 的 专门 介绍 SPSS 软件 的 功能 和 使 用 方法 的 专著 教材 和 手册 等 不 下 几 十 
本 。 但 一 般 都 是 几 十 万 字 的 篇 幅 , 读 者 阅读 费时 较 多 。 本 章 将 用 很 短 的 , 约 一 万 多 字 的 
篇 幅 介 绍 SPSS 软件 的 基本 使 用 方法 以 及 与 本 书 内 容 有 关 的 功能 ,接近 于 使 用 手册 的 性 
质 , 希 望 帮助 读者 在 很 短 的 时 间 内 就 能 入 门 使 用 。 

本 章 所 介绍 的 内 容 是 根据 SPSS11.0 的 版 本 编写 的 。 


13.1 数据 文件 的 建立 .编辑 和 数据 的 预 处 理 
(一 ) SPSS 数据 文件 的 建立 。 | 


使 用 SPSS 软件 第 一 步 是 建立 数据 文件 。 其 格式 与 一 般 的 >x с 交叉 列 联 表 相似 。 但 
它 规定 每 一 行 代表 一 个 实体 或 个 案 (case) , 而 每 一 列 的 数据 对 应 于 某 个 变量 对 所 有 实体 
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的 取 值 。 程 序 一 打开 计算 机 屏幕 就 显示 SPSS 程序 的 主 窗口 , 主 窗口 显示 一 个 数据 文件 ， 
屏幕 的 最 上 面 是 工具 菜单 栏 和 一 些 工具 图 标 ,最 左面 是 实体 的 标号 ( 见 表 13-1)。 

数据 可 以 手工 输入 ,也 可 以 从 文本 文件 ,EXCEL 等 电子 表格 或 数据 库 文件 中 整体 地 
转换 引入 。 文 件 转换 的 操作 过 程 如 下 :打开 SPSS 程序 后 , 单 击 “File” ,从 下 挂 菜单 中 单 击 
“0pen "一 Data。 这 时 会 出 现 一 个 对 话 框 ,选择 路 径 和 文件 类 型 ,可 以 找到 需要 转换 的 文 
件 。 确 认 后 单 击 “ 打 开 ” ,就 执行 文件 的 转换 ,SPSS 数据 文件 建立 完成 。 如 果 从 Excel 表格 
转换 ,Excel 表格 第 一 行 的 内 容 自动 转换 为 各 变量 的 名 称 。 文 件 转换 时 需要 注意 变量 类 型 
的 一 致 性 。 

主 窗口 显示 的 数据 文件 的 左下 角 有 一 个 “Data View/Variable View” 切 换 开关 ,可 以 从 
显示 数据 切换 到 显示 变量 。 在 显示 变量 的 状态 时 ,可 以 观察 到 各 变量 的 类 型 并 可 进行 编 
辑 ,包括 选择 和 改变 变量 的 类 型 .显示 宽度 、 小 数 点 位 数 和 定义 变量 的 标识 符 等 。 变 量 可 
以 是 数值 型 .字符 型 或 日 期 dolar 等 其 他 类 型 。 数 据 文件 建立 后 ,可 以 以 “sav” 为 扩展 名 
作为 SPSS 数据 文件 保存 ,也 可 以 保存 为 其 他 格式 的 数据 文件 ,为 别 的 软件 使 用 。 

SPSS 数据 文件 的 界面 是 英文 的 ,但 在 Windows XP 等 较 高 的 版 本 中 ,变量 名 、 变 量 标 
识 符 和 名 称 变量 的 取 值 等 都 可 以 输入 汉字 。 

(二 ) 数据 文件 的 预 处 理 。 

单 击 工具 栏 中 的 “Data” ,通过 下 挂 菜单 ,可 以 插入 或 删除 实体 、 插 入 或 删除 变量 、 定 义 
或 改变 变量 、 对 实体 进行 选择 、 排 序 和 加 权 以 及 数据 文件 的 分 解 或 合并 等 ,多 数 操作 方式 
与 EXCEL 等 电子 表格 相似 ,无 需 详细 介绍 ,这 里 仅 对 实体 的 加 权 和 选择 稍 加 说 明 。 

1. 实体 的 加 权 。 在 分 析 数 据 的 交叉 列 联 表 时 往往 需要 对 实体 加 权 。 本 书 的 第 十 章 
和 第 十 一 章 中 讨论 名 称 变量 和 有 序 变 量 的 关联 和 相关 时 ,其 基础 数据 是 统计 记录 交叉 分 
类 频次 值 的 r x с 列 联 表 , 如 表 10-11a。 


墓 式 \ 年 龄 段 青少年 Y 壮年 M 老年 0 
简单 土 坑 | 23 19 11 
木 制 墓室 М 12 17 13 


这 是 一 张 研究 墓 芋 类 型 和 幕 主 人 年 龄 段 两 个 变量 间 关 联 的 数据 表 , 表 中 单元 格 的 内 
容 是 相应 的 频次 值 。 使 用 SPSS 软件 处 理 这 类 列 联 表 ,要 使 用 数据 加 权 的 命令 。 实 际 操 
作 过 程 如 下 : 
第 一 步 是 将 列 联 表 10-11а 的 内 容 , 按 通常 SPSS 的 格式 建立 数据 文件 ,如 表 13-1 所 示 。 
Ж 13-1 SPSS 数据 文件 的 格式 
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表 中 共有 9 个 实体 ,每 个 实体 有 3 个 变量 。 它 们 是 墓 式 , 墓 主 人 的 年 龄 段 和 该 类 实 
体 , 即 墓葬 的 频次 值 , 表 的 第 2,3 两 列 反 映 了 医药 的 3 种 墓室 和 墓 主 人 3 个 年 龄 段 的 9 种 
交叉 情况 ,对 应 于 表 11-10 的 9 个 单元 格 。 这 两 列 属 名 称 变量 ,各 有 3 个 赋值 ,第 4 列 单元 
格 的 内 容 是 频次 , 它 是 数值 变量 。 

建立 表 13-1 后 ,第 二 步 是 对 实体 加 权 。 为 此 单 击 “data” 一 “weight cases”, 在 出 现 的 对 
话 框 中 选择 “频次 ”作为 加 权 变 量 。 按 “OK” 就 完成 了 对 每 个 实体 以 其 频次 值 为 权 的 操作 。 
这 样 就 可 以 对 表 11-10 的 数据 作 x? 检验 ,计算 各 种 关联 强度 等 。 需 要 说 明 , 在 加 权 操 作 
中 , 权 的 数值 中 不 能 出 现 “0”。 如 果实 际 的 频次 值 中 包含 “0” 值 ,需要 用 一 个 小 的 数值 ( 例 
如 0.001) 取 代 ,否则 加 权 操 作 会 被 停止 。 

2. 实体 的 选择 。 对 SPSS 数据 文件 中 的 实体 可 以 按 一 定 的 标准 进行 选择 ,其 操作 程 
序 如 下 。 单 击 “data”->“select cases”, 然后 在 出 现 的 对 话 框 中 输入 实体 选择 的 条 件 ,例如 
输入 条 件 是 “墓室 =“1T”and 墓室 = “2M””( 因为 1T 和 2M 为 名 称 变量 的 值 ,其 前 后 要 用 
“" 号 括 起 来 ) ,那么 土 坑 幕 和 木 制 墓 被 选 。 也 可 以 在 数据 文件 中 专门 建立 一 个 分 组 变量 ， 
然后 根据 分 组 变量 的 数值 选择 实体 。 执 行 实体 选择 操作 后 ,在 数据 文件 中 将 自动 产生 一 
个 新 的 变量 “filter _$”, 该 新 变量 对 于 被 选 实体 赋值 为 1 ,未 选 实体 赋值 为 0。 还 应 注意 ， 
实体 一 旦 被 选 或 加 权 , 那 么 它们 的 被 选 或 加 权 的 状态 将 被 保留 ,除非 以 后 用 户 改变 权重 
或 重 选 。 


13.2 数据 的 转换 


单 击 主 窗口 最 上 面 工具 栏 的 “Transform” ,将 下 挂 另 一 个 菜单 ,包含 数据 转换 的 各 种 命 


令 。 


1.“Compute" 命 令 是 通过 数学 运算 产生 一 个 新 的 变量 。 在 “Compute "对话 框 中 (1) 键 
人 新 的 目标 变量 的 名 称 ,定义 目标 变量 的 类 型 和 标识 符 等 属性 。(2) 按 “if" 键 ,输入 条 件 
以 选择 需要 对 新 变量 赋值 的 实体 。(3) 在 “Numeric Expression” 或 “String Expression” 框 中 键 
人 希望 生成 的 新 变量 的 表达 式 。 书 写 表 达 式 时 , 除 使 用 字母 ,数字 和 各 种 数学 运算 符 外 ， 
还 可 使 用 已 打开 的 数据 文件 中 的 变量 和 SPSS 软件 的 内 部 函数 。SPSS 有 70 多 个 内 部 函 
数 ,包括 数学 函数 ,统计 函数 ,分布 函数 ,字符 串 函 数 等 等 。 

2.“Count ”命令 是 统计 每 个 实体 在 变量 表 中 同类 值 出 现 的 次 数 ,并 将 统计 结果 生成 
一 个 新 的 数值 变量 写 人 已 打开 的 数据 文件 。 操 作 过 程 是 在 “Count "对 话 框 中 (1) 键 人 新 的 
目标 变量 的 名 称 和 属性 。(2) 将 需要 统计 的 所 有 变量 转移 到 变量 框 。(3) 按 “define values” 
键 ,在 其 对 话 框 中 定义 所 需 统计 的 “ 值 ”, 它 可 以 是 数值 变量 的 一 个 数值 , 几 个 数值 或 数值 
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范围 ,也 可 以 是 字符 串 。 定 义 完成 后 , 按 “Add” 键 确认 。 这 个 操作 可 以 多 次 重复 。 完 成 
“define values” 操 作 后 , 按 “Continiu” 键 , 回 到 “Count" 对 话 框 , 按 “OK" 键 ,命令 即 被 执行 。 
(4) 如 果 仅 需 对 部 分 实体 执行 Count 命令 , 则 在 按 “OK” 键 前 , 先 按 “if" 键 ,输入 相应 的 选择 
条 件 ,可 选择 需要 统计 的 实体 。 

3.“Record” 命 令 对 变量 的 取 值 作 改 变 ,或 称 重 编码 。 改 变 后 的 新 结果 可 以 存 人 同一 
个 变量 , 即 进行 改写 操作 ,也 可 以 作为 一 个 新 变量 写 人 数据 文件 。(1) 如 果 选 择 对 原 变量 
重 编码 , 则 在 对 话 框 中 先 选 择 要 重 编码 的 变量 ,再 按 “0ld апа New Values” 键 。 在 新 出 现 的 
对 话 框 中 分 别 键 人 需 改 写 的 旧 值 和 修改 后 的 新 值 , 按 “Add" 键 转移 确认 。 这 个 操作 可 重 
复 进 行 , 按 “Continiu” 键 , 回 到 “Record "对话 框 , 按 “OK" 键 ,命令 即 被 执行 。 需 改写 的 旧 值 
可 以 是 单个 数值 ,也 可 以 是 数值 范围 ,还 可 以 是 缺失 值 。(2) 如 果 重 编码 后 作为 一 个 新 变 
量 写 人 文件 , 则 在 对 话 框 中 选择 要 重 编码 的 变量 后 , 键 人 新 的 目标 变量 的 名 称 和 它 的 标 
识 符 等 , 按 “Change” 键 确认 。 再 按 “01d апа New Values” 键 , 往 下 的 操作 同 前 。 “Record” X} 
话 框 中 的 “if" 键 的 功能 与 “Compute” 命 令 中 相同 。 

4.“Rank” 命 令 是 将 实体 按 某 个 或 几 个 变量 取 值 的 大 小 排序 ,并 将 排序 结果 作为 新 变 
量 ( 秩 变 量 ) 写 人 数据 文件 。 新 变量 的 名 称 是 依据 原来 变量 的 名 称 自动 生成 的 ,如 果 原 变 
量 名 是 Var001 ,那么 新 生成 的 秩 变 量 的 名 称 为 rVar001。 操 作 过 程 :在 “Rank” 对 话 框 中 (1) 
输入 原 变量 名 (2) 选 择 排序 的 方法 (一 般 选 “Rank”) 和 (3) 确 定 对 原 变量 取 值 相等 的 实体 
的 秩 赋 值 的 方法 ,程序 即 可 执行 。 如 果 需 要 对 实体 作 分 组 的 各 自 排序 ,应 将 分 组 变量 输 
人 “By” 栏 。 

在 上 面 各 项 命令 的 对 话 框 中 都 有 一 个 “Paste” 图 表 按 钮 , 它 将 打开 一 个 “SPSS Syntax 
Editer" 对 话 框 , 显 示 所 要 执行 过 程 的 SPSS 源 程序 ,也 可 在 此 框 内 ,对 程序 进行 编辑 ,编辑 
完 后 ,点 击 ^*Run ”执行 。 


13.3 基本 统计 分 析 程 序 


单 击 主 窗口 上 面 工具 栏 中 的 “Analyze” ,屏幕 将 显示 列 出 所 有 分 析 程 序 的 下 挂 菜单 。 
本 节 仅 选择 菜单 中 与 本 书 内 容 有 关 的 程序 作 简单 说 明 。 

(一 )“Descriptive Statistics” 程 序 组 。 

点 击 “Descriptive Statistics” 将 出 现下 一 层 菜单 , 列 出 描述 性 统计 分 析 的 基本 命令 。 

1.“Frequancy” 命 令 是 显示 实体 的 分 布 。 在 “Frequancy” 对 话 框 中 首先 要 选择 一 个 变 
量 。 该 命令 的 执行 将 产生 一 个 全 部 实体 按照 所 选 定 变量 的 分 布 表 , 该 表 将 显示 各 类 实体 
的 频次 ,频率 ,并 对 实体 排序 后 显示 累积 频率 。 

在 对 话 框 中 单 击 “Chart”, 那么 执行 结果 还 将 显示 分 布 图 ,用 户 可 选择 直方 图 , 圆 辩 
图 ,长 条 图 等 ,如 选择 直方 图 ,图 上 可 同时 释 加 拟 合 的 正 态 分 布 烛 线 。 

在 对 话 框 中 还 有 一 个 “Statisrics” 开 关 , 如 开启 ,命令 执行 结果 中 还 将 按 用 户 要 求 给 出 
数据 的 集中 量 数 和 差异 量 数 。 | 

SPSS“Analyze” 菜 单 下 所 有 的 分 析 程 序 执行 后 ,都 会 把 执行 结果 写 人 一 个 “Output - 
SPSS Viewer" 文 件 中 ,其 内 容 可 以 以 扩展 名 为 “spo” 的 文件 保存 ,也 可 以 将 其 内 容 拷贝 到 
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“Word” 等 软件 中 。“Output - SPSS Viewer" 文 件 中 的 图 形 , 可 以 利用 SPSS 软件 提供 的 图 形 
编辑 器 (SPSS Chart Editor) 进 行 编辑 ,并 用 多 种 图 片 格式 单独 存储 ,从 而 方便 地 将 SPSS 执 
行 结果 与 其 他 软件 连接 。 

2.“Descriptive" 命 令 给 出 最 基本 的 描述 性 统计 的 结果 ,包括 平均 值 ,标准 差 等 。 在 对 
话 框 中 有 一 个 “0ption ”按钮 ,通过 它 还 可 以 选择 计算 “最 大 值 、. 最 小 值 \ 方 差 . 峭 度 、 偏 斜 度 
等 统计 量 。“Deseriptive "中 的 很 多 子 命令 包 含 在 “Explore ”命令 中 ,后 者 的 功能 更 强 ,建议 
使 用 “Explore "命令 。 不 过 “Deseriptive "命令 有 一 个 特殊 的 功能 , 它 能 对 原始 数据 根据 其 标 
准 差 标准 化 处 理 ,并 把 标准 化 后 的 Z 分量 作 为 新 变量 写 人 数据 文件 中 。 

3. “Explore "命令 将 以 表格 的 形式 给 出 全 部 描述 性 统计 的 结果 。 打 开 对 话 框 后 ,把 对 
实体 组 所 要 分 析 的 变量 名 输入 到 对 话 框 的 “Dependent List” 栏 中 ,选择 所 要 计算 和 输出 的 
内 容 后 , 单 击 “OK” 就 完成 操作 。 表 13-2 是 对 25 件 东周 青铜 钟 和 鼎 的 锡 百 分 含量 的 描述 
性 统计 的 输出 结果 。 原 始 数据 为 :(16.73,18.10,17.50,19.66,13.72,12.40,18.21,12.62， 
16.93,13.90,15.30,12.00,15.30,15.20,12.63,15.90,12.49,13.44,13.76,14.46,14.60, 
14.12,15.31,17.72,17.45)%. 


#132 对 25 件 东周 青铜 钟 和 时 中 锡 的 百 分 含 量 执行 
“Explore" 命 令 后 的 部 分 输出 结果 
Statistic Std. Error 
15.1780 0.42763 
95% Confidence Interval for Mean Lower Bound 14.2954 
Upper Bound 16.0606 


5% Trimmed Mean 15.1172 
Median 15.2000 


Std. Deviation - 2.13814 


Minimum 


Range 
Interquartile Range 


Skewness 


表 的 最 后 _ 列 给 出 平均 值 . 偏 斜 度 和 请 度 的 标准 差 。“Explore" 命 令 还 能 给 出 数组 的 
各 分 位 数 的 数值 ,如 表 13-3 所 示 。 表 中 “50%" 位 的 分 位 数值 也 就 是 中 数 .其 左右 两 个 数 
值 是 上 、 下 四 分 位 数 。 


Ж 13-3 “Explore” 程序 给 出 25 件 东 周 青 铜 钟 和 鼎 的 锡 百 分 含量 的 各 分 位 数 
| 5 | o0 | ж | ж | » | % | 9 | 
“Explore" 命 令 除 给 出 上 面 的 描述 性 统计 分 析 结 果 外 ,用 户 还 可 以 要 求 它 绘制 出 实体 
分 布 的 直方 图 . 茎 叶 图 和 箱 点 图 。“Explore” 命 令 可 以 对 几 个 变量 同时 进行 分 析 ,也 可 以 把 
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实体 分 组 分 析 , 只 需 将 分 组 变量 输入 对 话 框 的 “Factor" 栏 。 分 组 分 析 时 ,各 组 的 箱 点 图 输 
出 在 同一 张 图 上 ,十 分 便利 于 各 组 数据 间 的 中 数 和 四 分 位 差 之 间 的 比较 。 

4…“Crosstabs "命令 应 用 于 名 称 变量 频次 列 联 表 的 关联 研究 和 有 序 变 量 的 相关 研究 。 
执行 本 命令 前 应 先 按 13 .1 中 所 述 的 给 各 实体 按 其 频次 加 权 。 单 击 “Crosstabs ”命令 ,在 对 
话 框 中 输入 行 变量 和 列 变量 的 名 称 , 点击“OK”" 键 ,程序 对 名 称 变量 给 出 у, ф,У,А 和 
Goodman and Krustal’ s т 等 关联 强度 系数 ,而 对 有 序 变量 给 出 Gamma 和 Kendall’ т, Ж т, 等 
等 级 相关 系数 ,同时 给 出 相应 的 显著 性 水 平 。 

(Z) “Compare means” 程 序 组 。 

选 “Compare means” 将 出 现下 一 层 菜 单 , 均 为 执行 总 体 平均 值 间 比较 的 统计 分 析 命 
令 。 

1. 单 击 “Mean” 命 令 出 现 一 对 话 框 ,将 需要 求 平均 值 的 变量 输入 到 “Dependent list” 栏 ， 
间 时 必须 将 分 组 变量 输入 到 “Independent list” 栏 。 即 使 只 有 一 组 实体 ,也 需要 输入 分 组 变 
量 , 这 时 只 要 将 对 全 部 实体 的 分 组 变量 赋 以 同一 个 数值 就 可 以 。 对 话 框 中 的 “Option” 钮 
提供 各 种 描述 性 参数 的 选择 ,命令 的 执行 给 出 各 组 的 平均 值 和 其 他 描述 性 参数 。“ Mean” 
命令 还 可 以 对 各 组 数据 作 ANOVA 分 析 , 给 出 组 间 离 差 平方 和 和 总 离 差 平 方 和 的 比值 , 称 
为 Еа 系数 。 

2. “Опе sample Т test” 命 令 执 行 单 总 体 平均 值 的 假设 检验 。 将 变量 名 和 总 体 的 平均 
值 分 别 输入 对 话 框 后 (后 者 输入 到 “Level” 栏 ) ,命令 即 可 执行 。 这 里 的 “Option" 钮 提供 检 
验 置信 度 的 选择 和 处 理 数据 文件 中 缺失 值 方法 的 选择 。 

3. “Independent-samples Т test” 命 令 执行 两 总 体 平均 值 一 致 性 的 假设 检验 。 输 入 分 析 
变量 名 ,分 组 变量 名 和 分 组 标准 后 即 可 执行 。 对 话 框 中 “Option” 钮 的 作用 与 “One sample Т 
test" 命 令 情 况 下 相同 。 输 出 结果 中 包括 在 方差 一 致 性 检验 通过 和 不 通过 两 种 情况 下 的 两 
总 体 平 均值 一 致 性 的 检验 结果 和 两 总 体 平 均值 之 差 的 区 间 估 计 。 但 是 这 个 程序 并 不 对 
两 总 体 方差 的 一 致 性 作 检 验 。 

4. “Paired-samples Т test" 命 令 执 行 成 对 样本 的 总 体 平 均值 一 致 性 的 假设 检验 。 需 要 
同时 输入 一 对 变量 。 其 他 方面 与 前 述 内 容 相 同 。 

5. “One-way ANOVA" 命 令 执行 一 元 方差 分 析 。 输 入 分 析 变 量 和 分 组 变量 后 ,命令 即 
可 执行 并 输出 ANOVA 分 析 表 。“Option" 钮 可 提供 多 种 选择 ,例如 可 要 求 输出 描述 性 统计 
的 各 参数 值 ,进行 方差 的 一 致 性 检验 等 。 如 果 “One-way ANOVA” 检 验 拒绝 了 “各 组 平均 值 
无 显著 差别 "的 原 假设 后 ,“Post-Hoc” 键 提供 进行 各 组 两 两 之 间 比 较 。 这 里 有 多 种 方法 可 
供 选择 ,例如 在 通过 方差 一 致 性 检验 的 条 件 下 选择 “LSD ”或 “Tukey 方法 ,执行 结果 将 显 
示 各 组 两 两 间 平 均值 一 致 性 的 检验 结果 和 哪 几 个 组 之 间 能 通过 平均 值 一 致 性 检验 等 

(三 )“Correlerate” 程 序 组 。 

本 程序 组 包含 计算 各 种 相关 系数 和 距离 系数 的 程序 ,由 三 组 程序 组 成 。 

1.“Bivariate” 程 序 计 算 两 个 变量 之 间 的 简单 相关 系数 ,包括 皮尔 逊 相关 系数 ,斯 皮尔 
曼 相关 系数 和 Kendall's т, 系数 ,并 进行 双 测 和 单 测 的 检验 。 

2.“Partial" 程 序 计算 偏 相 关系 数 ,需要 将 分 析 变 量 和 控制 变量 分 别 输入 对 话 框 。 

3.“Distances” 计 算 各 种 距离 系数 。 在 对 话 框 中 可 选择 需要 计算 实体 间 的 还 是 变量 间 
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的 距离 ,选择 表示 距离 的 是 相似 系数 还 是 相 蜡 系数 。 对 话 框 中 的 “measure” 按 钮 对 数值 变 
量 , 二 元 变量 和 频次 变量 分 别 给 出 不 同 的 距离 系数 供用 户 选 择 ,例如 对 数值 变量 可 以 选 
择 计 算 并 输出 欧 氏 距离 城市 街道 距离 或 车 贝 舍 夫 距离 等 等 。 

(四 )“Regression” 程序 组 。 

本 程序 组 的 功能 是 给 出 回归 方程 ,检验 回归 方程 的 稳定 性 和 进行 残 差分 析 等 。 可 进 
行 线性 的 和 非 线 性 的 回归 ,一 元 的 和 多 元 的 回归 ,是 一 个 有 多 种 功能 的 程序 组 。 与 本 书 
内 容 有 关 的 仅 是 一 元 线性 回归 分 析 ,为 此 在 “Linear" 对话 框 中 分 别 输入 一 个 自 变量 和 一 个 
应 变量 后 就 可 执行 ,输出 相关 系数 ,回归 参数 和 相应 的 显著 性 检验 结果 。 这 里 再 次 说 明 
这 是 一 个 功能 很 强 的 程序 组 ,一 元 线形 回归 仅 是 其 很 小 的 部 分 。 

(五 )“Classification” 程 序 组 的 功能 是 对 实体 分 类 。 

本 书 将 在 第 十 四 和 十 五 章 ,结合 介绍 各 种 多 元 的 分 类 和 归 类 方法 的 原理 和 应 用 时 详 
细 介 绍 SPSS“ Classification ”程序 组 的 功能 和 操作 ,这 里 仅 作 简要 说 明 。“Classification ”程序 
组 包含 3 个 次 级 程序 。 

1. “K-means Cluster Analysis” 程 序 对 实体 进行 快速 的 非 等 级 的 分 组 。 在 对 话 框 中 输入 
分 类 中 所 考虑 的 变量 ,确定 需要 分 几 组 和 计算 过 程 中 的 和 迭代 次 数 后 程序 即 可 执行 。 各 分 
析 变 量 在 各 组 中 的 初始 中 心 值 可 由 用 户 给 定 ,也 可 以 由 计算 机 生成 。 本 程序 的 应 用 简单 
方便 ,但 要 求 某 些 先 决 条 件 。 也 许 应 同时 使 用 "Hierarehical Cluster Analysis "方法 作对 比 。 

2. “Hierarchical Cluster Analysis” 程 序 称 为 系统 聚 类 程序 。 在 对 话 框 中 输入 分 类 中 所 
考虑 的 分 析 变 量 。 按 “Method” 键 后 有 3 项 重要 的 选择 ,(1) 选 择 原 始 数据 标准 化 的 方法 ， 
(2) 选 择 使 用 哪 种 距离 系数 作为 实体 间 相 异 程度 的 度量 和 (3) 选 择 系统 涌 类 的 方法 。 程 
序 输出 的 格式 ,包括 树 支 状 图 , 冰 柱 图 等 。 如 在 “Staticetics ”对话 框 选 ^Agllomeration Sched- 
we” 可 显示 逐步 聚 类 的 过 程 , 选 “Proximities” 可 显示 育 类 过 程 所 基于 的 相 异 系数 矩阵 , 它 是 
由 距离 系数 度量 方法 的 选择 所 决定 的 。 详 细 情 况 见 14.4 节 。 

3.“Discriminant Analysis” 程 序 进行 判别 分 析 。 在 主要 对 话 框 中 需要 输入 分 析 变 量 ( 即 
自 变 量 ) 和 分 组 变量 后 就 能 执行 。 但 程序 执行 前 另 有 若干 选择 项 ,包括 自 变 量 进入 的 方 
式 , 以 及 “Classify” 对 话 框 中 的 先 验 概率 ,缺失 值 的 处 理 , 是 否 要 求 执行 "Leave-one-out-clas- 
sification” 以 及 输出 表格 和 图 形 的 内 容 和 形式 等 。 在 “Statistics” 对 话 框 中 可 以 要 求 计算 和 
显示 相关 系数 ,各 种 协 方差 ,各 变量 各 组 的 平均 值 , 非 标准 化 情况 下 判别 方程 的 系数 和 执 
行 一 元 方差 分 析 等 ,详细 的 情况 将 在 第 十 五 章 中 结合 应 用 实例 加 以 说 明 。 

OX) “Data Reduction” 程 序 是 进行 主因 子 分 析 。 关 于 其 功能 和 操作 过 程 将 在 第 十 六 
章 详细 讨论 ,这 里 仅 是 简要 介绍 。 在 主要 对 话 框 中 输入 分 析 变 量 后 程序 即 可 执行 。 但 主 
因子 分 析 需 要 根据 分 析 的 目的 和 原始 数据 结构 先 确定 一 系列 选择 项 。 

1. 在 “Discriptive” 对 话 框 中 ,用 户 可 要 求 作 单 变量 的 描述 性 统计 和 计算 和 输出 各 种 相 
关系 数 矩 阵 。 其 中 的 КМО and Bartlett’ s Test-of-Sphericity 统计 量 显 示 整 套数 据 是 否 适宜 
于 主因 子 分 析 , Anti-Image 反 象 相关 系数 矩阵 显示 每 个 变量 对 于 当前 因子 分 析 的 适宜 性 
度量 ,建议 选择 。 

2.“Extraction” 对 话 框 中 有 几 项 重要 的 选择 。(1)“Method" 栏 中 提供 多 种 提取 因子 的 
方法 ,它们 的 差别 是 拟 合 优 度 的 定义 标准 不 同 。 上 默认 的 方法 是 选择 提取 “Principal Compo- 
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nent”, 即 主 成 分 分 析 ,这 也 是 考古 学 定量 分 析 中 最 常用 的 方法 。 最 大 似 然 法 有 时 也 被 选 
用 ,不 同 因子 提取 方法 给 出 结果 间 的 比较 可 显示 主因 子 分 析 的 结果 是 否 稳定 。(2)“Ana- 
lyze” 栏 中 要 求 用户 在 相关 系数 矩阵 和 协 方差 矩阵 之 间作 选择 ,不 同 的 选项 会 导致 有 一 定 
差异 的 分 析 结 果 。 建 议 选 程序 默认 的 相关 系数 和 矩阵。 在 这 个 对 话 框 中 (3) 还 可 以 选择 提 
取 特 征 值 的 标准 和 (4) 选 择 某 些 显示 方式 等 。 

3. “Rotation 对话 框 提供 用 户 选 择 ,是 否 需 要 转动 主因 子 轴 和 转动 的 方式 ,转动 的 目 
的 是 简化 数据 结构 以 便 更 清楚 地 显示 主因 子 与 原始 变量 间 的 关系 。 

4.“Scores "对话 窗口 应 选择 “Save as Variables” ,将 实体 的 各 主因 子 或 主 成 分 得 分 值 作 
为 新 变量 记录 于 原始 数据 文件 中 。 此 外 还 应 选择 显示 因子 得 分 矩阵 ,以 了 解 原始 变量 对 
各 主因 子 的 贡献 。 | 

5. “Option” 按钮 选择 缺失 值 的 处 理 方 案 和 要 求 因 子 得 分 的 输出 按 大 小 排列 等 。 

(七 ) “Nonparametric Test” 非 参数 假设 检验 程序 组 提供 单 样 本 ,独立 和 相关 样本 的 非 
参数 假设 检验 。 

1.“Chi-square” 是 对 单 样本 进行 x? 检验 。 在 对 话 框 的 “Test Variable List” 栏 输入 分 析 
变量 ,在 “Expected Values” 栏 中 默认 的 是 “All catagories equal” ,各 期 望 值 相等 ,也 可 以 在 
“Value” 栏 中 依次 输入 与 每 个 实体 取 值 相对 应 的 期 望 值 ,例如 根据 均匀 分 布 假设 前 提 下 计 
算得 到 的 期 望 值 。 程 序 执行 后 将 输出 各 组 实际 观察 值 和 期 望 值 的 频次 表 ,x? 值 ,自由 度 
和 相应 的 显著 性 水 平 。 单 击 “0ption” 钮 ,还 可 显示 分 析 变 量 的 描述 性 参数 和 各 分 位 数值 。 

2.“Binomial "是 对 单 样本 的 比例 数 作 二 项 分 布 检验 ,在 对 话 框 中 输 人 分 析 变量 名 和 
期 望 比例 数 р 后 ,程序 即 可 执行 。 要 注意 的 是 ,输入 的 期 望 比例 数 是 对 应 二 元 分 析 变 量 
的 第 一 个 取 值 。 另 外 如 果 分 析 变 量 不 是 二 元 变量 , 它 的 取 值 数 大 于 2 时 , 则 要 在 “Difine 
Dichoyomy” 的 “Cut point” 中 输入 一 个 分 割 值 。 小 于 或 等 于 分 割 值 的 数据 归 信 第 一 组 ,大 于 
分 割 值 的 数据 为 第 二 组 ,将 原始 分 析 变量 转化 为 二 元 变量 ,然后 才能 进行 二 项 式 分 布 检 
验 。 

3.“Run "是 游程 检验 程序 ,本 书 未 讨论 游程 检验 问题 。 

4. “1 Sample K-S "执行 单 样本 的 Kolgomorov-Smimov 检验 ,可 检验 样本 是 否 符合 正 态 ， 
均匀 , 泊 松 或 指数 分 布 ,但 分 布 的 参数 不 能 选择 。 

5. “2 Independent Samples "执行 两 个 独立 样本 的 非 参 数 检验 。 在 对 话 框 中 分 别 输入 分 
析 变 量 和 分 类 变量 后 ,再 选择 检验 的 方法 ,程序 即 可 执行 。 检 验方 法 中 包括 本 书 前 面 已 
介绍 的 基于 秩 和 的 “Mann-Whitney "方法 和 基于 百 分 累 加 曲线 的 “Kolgomorov-Smimov” 方 法 。 
对 于 前 者 输出 结果 表 给 出 近似 的 和 精确 的 两 个 显著 性 水 平 值 ,可 根据 样本 的 实体 数 大 于 
或 小 于 40, 分 别 选 精确 值 或 近似 值 。 

6. “2 related Samples” 执 行 两 个 相关 样本 或 成 对 样本 的 非 参 数 检验 。 在 对 话 框 中 输 
人 变量 对 和 选择 检验 方法 后 ,程序 即 可 执行 。 检 验方 法 有 本 书 第 七 章 曾 介绍 或 提 到 的 符 
号 检验 和 Wilcoxon 符号 秩 检验 。 


13.4 绘图 程序 


SPSS 软件 能 执行 一 定 程度 的 绘图 功能 ,可 以 在 “Graphs" 菜 音 下 执行 。 另 外 上 节 介 绍 
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的 很 多 统计 分 析 程 序 的 执行 自动 生成 (或 选择 “Plot” 要 求生 成 ) 各 种 显示 图 。 单 击 这 些 
图 , 即 可 进入 SPSS 的 图 形 编辑 程序 “SPSS Chart Editor" 窗 口 。 在 图 形 编辑 窗口 ,对 图 中 的 
点 , 线 等 图 形 元 素 的 形状 ,大 小 ,粗细 ,填充 ,颜色 ,对 坐标 轴 的 单位 ,分 格 ,名 称 等 进行 编 
辑 。 编 辑 后 的 图 可 以 以 多 种 格式 输出 ,也 可 直接 粘贴 到 “Word" 文 件 中 。 

Graphs 菜单 中 还 有 P-P 和 Q-Q 两 个 命令 ,可 用 于 粗略 考察 数据 是 否 接近 正 态 分 布 , 详 
见 7.5 节 。 


13.5 在 线 帮助 


SPSS 提供 多 种 帮助 方式 :(1) 在 SPSS 主 窗 口上 端的 工具 栏 中 , 单 击 “Help” ,可 出 现 帮 
助 菜单 。 可 选择 按 “ 目 录 ”( 程 序 功能 ) 或 按 “ 索 引 ”( 字 母 次 序 ) 寻 找 帮 助 。 帮 助 内 容 除 对 
程序 ,方法 的 基本 原理 作 说 明 外 ,还 告知 用 户 怎样 操作 (How to)。(2) 在 很 多 的 程序 命令 
窗口 中 都 有 “help" 键 ,对 当前 的 命令 作 解 释 和 提供 帮助 。(3) 在 分 析 程 序 执行 结果 的 输出 
文件 “Output-SPSS Viewer” 中 也 能 寻求 帮助 。 将 鼠标 点 在 有 关 条 目 或 表格 上 , 单 击 和 鼠标 右 
键 也 能 得 到 相应 的 帮助 ,可 以 打开 “Result Coach” 和 窗口 ,程序 会 对 分 析 的 结果 进行 举例 解 
释 ,这 非常 有 助 于 对 统计 学 知识 准备 不 足 的 用 户 。(4) 此 外 SPSS 软件 还 提供 “Tutorial” 和 
“Statistic Coach” 等 专门 的 教学 程序 , 供 初 学 者 学 习 使 用 。 


下 篇 
多 元 统计 方法 在 考古 研究 中 的 应 用 


本 书 上 篇 讨论 了 单 变量 和 两 个 变量 的 情况 ,讨论 了 实体 对 于 单 变量 和 双 变 量 的 分 
布 . 单 变量 实体 组 的 集中 量 数 和 差异 量 数 ,两 个 变量 之 间 的 相关 关系 ,介绍 了 统计 推断 的 
基本 思想 和 方法 等 。 但 是 在 很 多 情况 下 实体 具有 多 方面 的 属性 , 仅 用 一 、 二 个 变量 来 描 
述 是 不 充分 的 。 例 如 在 医 莫 分 期 中 ,需要 考虑 墓 莫 中 多 种 器 物 的 存在 和 数量 ,在 陶瓷 的 
产地 淹 源 中 要 比较 陶 次 中 二 三 十 种 元 素 的 含量 ,在 古人 类 颅骨 的 种 族 判 别 中 要 分 析 比 较 
描述 头骨 形态 特征 的 几 十 种 观测 量 。 这 些 考古 研究 课题 都 涉及 大 量 的 实体 ,而 每 个 实体 
又 被 多 个 变量 所 描述 ,原始 数据 复杂 庞大 。 考 古 学 家 为 了 从 庞大 烦琐 的 数据 结构 中 寻求 
其 内 涵 的 关系 和 规律 ,需要 凭 自己 的 经 验 ,花费 大 量 的 精力 和 时 间 。 但 是 传统 的 研究 方 
法 难免 有 朴 漏 之 处 ,其 研究 结论 还 可 能 隐 含 研究 者 个 人 的 观点 和 倾向 。 为 了 从 庞大 复杂 
的 数据 中 找 出 其 内 涵 的 关系 和 规律 ,特别 是 对 多 变量 实体 进行 分 类 和 排序 ,研究 者 发 展 
了 各 种 多 元 统计 方法 。 对 于 各 种 多 元 统计 方法 ,其 计算 规则 的 共同 特点 是 简化 数据 结 
构 , 在 简化 了 的 数据 结构 中 更 容易 观察 ,发 现 原始 数据 中 所 包含 的 关系 和 规律 。 例 如 本 
篇 第 十 六 章 要 介绍 的 主 成 分 分 析 方 法 , 它 是 在 保留 原始 数据 中 绝 大 部 分 信息 的 前 提 下 ， 
将 原始 数据 简化 到 仅 有 二 三 个 综合 变量 的 数据 ,然后 在 降 维 后 的 二 ,三 维 的 空间 中 对 实 
体 进行 分 类 排序 。 这 种 计算 过 程 称 为 数据 的 降 维 。 第 十 五 章 的 判别 分 析 则 是 计算 多 变 
量 实 体 的 少数 几 个 判别 函数 值 ,根据 少数 几 个 判别 函数 值 就 可 以 对 实体 作 归 类 。 第 十 四 
章 的 聚 类 分 析 和 第 十 七 章 的 Brainerd-Robinson 排序 方法 , 则 是 在 多 维 变量 的 空间 中 计算 
实体 两 两 闻 的 相似 系数 ,然后 根据 相似 系数 和 矩阵 对 实体 进行 聚 类 或 排序 。 当 然 , 主 成 分 
分 析 、 判 别 分 析 和 人 聚 类 分 析 等 多 元 分 析 方 法 在 简化 数据 结构 的 过程 中 也 涉及 某 些 项 目的 
选择 。 对 于 同一 组 原始 数据 ,不 同 的 选择 可 能 会 得 到 不 尽 相 同 的 结果 ,也 就 是 说 ,最 后 的 
分 析 结 论 会 因 不 同 的 选项 而 带 有 研究 者 的 主观 因素 。 但 是 这 些 主观 因素 是 “公开 的 ”, 其 
他 人 也 能 看 到 的 。 多 元 分 析 是 由 计算 机 帮助 实现 的 ,计算 分 析 过 程 快速 ,可 以 通过 观察 
改变 选项 对 分 析 结 论 的 影响 ,帮助 揭示 变量 间 的 关系 和 评估 分 析 结 论 的 可 信和 度 。 

多 元 统计 方法 也 称 为 多 变量 分 析 方 法 。 之 所 以 称 为 统计 方法 ,是 因为 这 些 计算 方法 
往往 是 基于 平均 值 .方差 .相关 系数 等 概率 统计 学 的 基本 概念 。 但 是 这 些 方 法 所 处 理 的 
数据 并 不 是 统计 意义 下 的 样本 ,一 般 不 要 求 随机 抽样 ,研究 结论 也 不 被 要 求 外 推 , 不 涉及 
显著 性 检验 的 问题 。 例 如 对 某 个 墓地 的 墓葬 分 期 ,对 一 批 陶瓷 片 按 其 化 学 组 成 分 类 或 古 
人 类 头骨 按 其 形态 分 类 等 ,对 所 处 理 的 样本 可 以 看 成 是 总 体 。 这 与 本 书 上 篇 中 所 进行 的 
统计 推断 是 不 同 的 。 

多 元 统计 方法 作为 数学 学 科 的 一 个 分 支 ,创建 于 20 世纪 之 初 。 各 种 多 元 分 析 方 法 
都 涉及 大 量 的 计算 ,因此 它们 的 发 展 和 应 用 的 普及 是 与 计算 机 的 普及 分 不 开 的 。 二 次 大 
战 以 后 多 元 统计 方法 迅速 地 发 展 ,特别 是 在 生命 科学 农业 科学 经 济 学 和 社会 学 等 学 科 
得 到 极为 广泛 的 应 用 。 有 人 认为 ,数学 特别 是 多 元 统计 方法 的 应 用 使 生命 科学 获得 了 第 
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二 次 生命 ,使 经 济 学 走 上 计量 的 道路 从 而 成 为 真正 意义 上 的 科学 。 多 元 统计 方法 在 考古 
研究 中 的 应 用 也 正在 逐步 开展 并 有 光明 的 前 景 。 

鉴于 基础 统计 和 多 元 统计 的 计算 过 程 都 借助 于 计算 机 软件 ,上 篇 的 第 十 三 章 介绍 了 
SPSS 统计 软件 最 基础 的 知识 和 使 用 方法 ,本 篇 介绍 主 成 分 分 析 、 判 别 分 析 和 聚 类 分 析 等 
多 元 分 析 方 法 时 也 是 结合 SPSS 软件 的 使 用 进行 的 。 这 将 有 利于 读者 学 以 致 用 ,应 用 这 
些 方法 于 实际 的 考古 资料 的 分 析 研 究 。 
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14.1 数量 分 类 方法 一 般 介绍 


实体 的 分 类 是 指 把 一 个 实体 群 按 其 性 状 特征 分 成 若干 组 ,并 使 得 每 个 组 内 实体 间 的 
相 异 性 尽量 小 ,而 不 同 组 的 实体 间 的 相 异 性 尽量 大 。 分 类 是 人 类 认识 自然 的 一 种 基本 方 
法 ,是 从 大 量 繁杂 的 资料 数据 中 寻找 关系 和 规律 的 方法 。 分 类 研究 在 生物 学 的 发 展 中 起 
了 关键 的 作用 ,生物 分 类 学 将 物种 作为 分 类 的 基本 单位 ,并 建立 起 了 种 、 属 、 科 、 目 \ 纲 、 门 
和 界 等 自 小 到 大 的 类 群 ,反映 分 类 阶 元 的 梯级 结构 ,并 一 定 程度 上 反映 种 系 的 发 生 和 进 
化 。 在 考古 学 中 器 物 的 分 型 分 式 是 器 物 层 次 的 分 类 ,用 以 研究 器 物 随时 代 的 演化 和 器 物 
的 地 区 性 特性 ;而 文化 类 型 的 划分 则 是 更 高 层次 的 分 类 , 它 是 在 一 定 地 域 建 立 考古 学 文 
化 谱系 演化 的 基础 。 

分 类 的 方法 很 多 种 ,但 可 以 分 成 等 级 分 类 方法 和 非 等 级 分 类 方法 两 大 类 。 等 级 分 类 
方法 又 分 为 等 级 聚 类 和 等 级 分 划 两 种 。 等 级 聚 类 也 称 系统 聚 类 , 它 是 在 一 个 包含 n 个 实 
体 的 实体 群 中 先 将 2 个 性 状 最 相近 的 实体 聚合 ,并 且 看 作 一 个 新 的 实体 ,再 在 (mn - 1) Ж 
体 中 找 出 2 个 性 状 最 相近 的 实体 聚合 ,经 过 (n - 1) 次 这 样 的 聚合 ,得 到 包含 全 部 ”个 实 
体 的 聚合 。 因 为 聚合 有 先后 ,最终 得 到 一 个 自 上 而 下 等 级 状 的 聚 类 结果 , 称 为 树枝 状 聚 类 
图 。 等 级 分 划 是 根据 一 定 准 则 将 全 部 п 个 实体 划分 成 2 组 ,然后 再 对 其 中 的 一 组 一 分 为 
二 ,这 样 重复 进行 ,直到 可 以 认为 已 分 划 的 各 子 组 内 的 实体 已 是 同 质 的 ,不 需 再 分 划 。 也 
就 是 说 等 级 分 划 有 自己 的 终止 规则 。 等 级 分 划 最 后 将 给 出 一 个 由 下 而 上 有 等 级 的 树枝 
RIXA. 

与 等 级 分 类 相对 应 的 是 非 等 级 的 分 类 方法 。 辟 如 说 ,将 全 部 实体 同时 分 为 预定 的 若 
干 组 ,然后 根据 规定 的 标准 用 迭代 方法 对 各 组 成 员 进 行 调整 ,最 后 得 到 一 个 网 状 结构 的 
分 类 图 。 非 等 级 方法 由 于 计算 工作 量 大 和 别 的 一 些 困难 ,其 发 展 和 应 用 的 普遍 性 不 及 等 
级 分 类 方法 。 非 等 级 分 类 的 结果 ,组 内 实体 的 同 质 性 好 ;而 等 级 分 类 的 树枝 状 图 能 多 少 
反映 实体 间 的 “谱系 ”关系 ,但 这 是 以 轿 牲 同 组 实体 的 同 质 性 为 代价 的 。 等 级 聚 类 的 另 一 
个 问题 是 ,如 果 因 某 种 原因 某 个 实体 在 聚 类 的 早期 阶段 被 不 适当 的 聚合 ,就 可 能 对 后 面 
的 聚 类 过 程 产生 不 良 的 影响 。 

第 十 五 章 将 讨论 的 判别 分 析 , 严 格 地 说 不 属于 分 类 方法 ,而 是 一 种 归 类 的 方法 。 这 
里 外 在 的 因素 已 能 确定 实体 应 该 分 成 几 类 , 即 实体 的 类 属 关系 是 已 知 的 。 辟 如 说 有 一 批 
瓷 片 ,已 经 知道 它们 来 自 几 个 不 同 的 产地 。 在 这 个 先 验 的 条 件 下 ,又 根据 实体 本 身 内 在 
的 性 状 , 璧 如 说 根据 这 批 瓷 片 的 化 学 元 素 组 成 分 类 ,观察 按照 化 学 组 成 分 类 的 结果 与 已 
知 的 按照 产地 的 分 类 是 否 符合 。 此 外 判别 分 析 还 能 将 未 知 归 属 的 实体 ,例如 未 知 产地 的 
瓷 片 , 归 到 已 知 的 合适 类 别 。 人 工 神经 网 络 方法 基本 上 也 是 一 种 归 类 的 方法 。 
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第 十 七 章 将 讨论 的 主 成 分 分 析 , 其 分 析 结 果 往 往 用 实体 在 由 前 二 三 个 主 成 分 为 坐标 
系 的 空间 中 的 分 布 来 表述 ,实体 的 分 布 情况 可 以 为 它们 的 分 类 或 排序 提供 重要 信息 。 
此 主 成 分 分 析 同 时 可 看 成 分 类 方法 和 排序 方法 。 

上 述 的 分 类 方法 多 数 是 基于 实体 的 可 测量 性 状 的 分 类 方法 ,都 属于 数量 分 类 方法 。 
在 具体 讨论 各 种 分 类 方法 之 前 ,14.2 和 14.3 两 节 先 介绍 数据 的 转换 和 相似 系数 ,它们 是 
执行 多 种 分 类 方法 前 的 数据 准备 工作 。 然 后 再 依照 等 级 聚 类 ,等 级 分 划 和 非 等 级 分 类 的 
次 序 进行 讨论 。 


14.2 原始 数据 的 转换 


康 类 分 析 的 基础 数据 是 原始 数据 表 。 假设 有 nn 个 实体 ,每 个 实体 用 m 个 属性 来 描述 ， 
原始 数据 表 如 下 式 (14-1) 所 示 : 


(14-1) 


Xni хо Y Хат 

这 是 一 种 矩阵 的 表达 形式 。 和 矩阵 有 nn 行 ,m 列 , 共 n x т 个 元 素 组 成 ,每 一 行 代表 一 
个 实体 ,可 以 看 成 一 个 т 维 的 矢量 ;而 每 一 列 代 表 一 个 变量 在 п 个 实体 中 的 取 值 ,可 以 看 - 
成 一 个 转 置 了 的 п 维 的 矢量 。 所 谓 转 置 就 是 行 ( 列 ) 通 过 90 度 的 旋转 转化 为 列 ( 行 ) 。 

这 里 作 一 个 说 明 , 多 元 统计 分 析 的 理论 和 计算 过 程 都 涉及 矩阵 代数 。 本 书 基本 内 容 
的 阅读 和 学 习 并 不 要 求 读者 掌握 有 关 和 矩阵 的 知识 ,但 在 某 些 章节 使 用 了 一 些 矩 阵 代数 的 
术语 。 我 们 会 对 所 用 的 术语 作 必 要 的 说 明 ,将 不 致 引起 未 掌握 矩阵 基本 知识 的 读者 的 阅 
读 困 难 。 

育 类 分 析 可 以 对 实体 进行 聚 类 ,也 可 以 对 变量 进行 聚 类 。 前 者 称 为 Q 型 聚 类 ,往往 
用 实体 之 间 的 “距离 ”作为 实体 间 相 异 程 度 的 指标 ;后 者 称 为 R 型 聚 类 ,往往 用 变量 之 间 
的 相关 系数 作为 变量 间 相 似 程度 的 指标 。 在 14.1 节 中 曾 指 出 , 聚 类 分 析 的 基本 过 程 是 把 
两 个 性 状 最 相近 的 实体 聚合 为 一 类 ,因此 定义 和 计算 表征 实体 间 性 状 相 近 程 度 的 各 种 相 
似 系数 是 执行 聚 类 过 程 的 前 提 。14.3 节 将 专门 讨论 各 种 相似 系数 的 定义 。 

原始 数据 中 的 各 个 变量 往往 使 用 的 是 不 同 的 测量 单位 ,即使 使 用 同样 的 测量 单位 ， 
不 同 变量 取 值 的 变化 范围 也 有 差别 ,这 将 影响 相似 系数 的 计算 结果 。 举 例 来 说 ,有 一 群 
人 ,每 个 人 有 不 同 的 身高 (*) 和 体重 (7y) ,在 以 身高 和 体重 为 坐标 的 图 上 ,每 个 点 代表 一 


个 个 体 。 点 与 点 之 间 的 距离 是 4d = ух” + yy , 它 反映 个 体 间 身高 和 体重 的 差别 ,距离 越 
大 ,个 体 间 的 差异 也 越 显 著 , 因 此 距离 d 可 以 作为 人 与 人 之 间 的 相 异 系数 ,或 称 距 高 系 
数 。 相 异 系数 和 相似 系数 是 互补 的 ,都 是 表征 实体 间 关 系 灯 政 的 度量 。 但 是 距离 d 的 数值 
大 小 依赖 于 身高 和 体重 的 测量 单位 。 如 果 人 的 身高 用 厘米 ,体重 用 市 斤 作为 测量 单位 , 那 
А х бу 的 数值 大 小 很 接近 ,都 是 一 百 几 十 ,身高 和 体重 对 а 的 贡献 是 差不多 的 。 但 如 果 
改 用 米 作 为 身高 的 测量 单位 ,那么 在 数值 上 у > > x, 这 样 点 之 间 的 距离 ,也 就 是 表征 人 与 
Лен ЖИ Е ,将 主要 由 体重 来 决定 ,身高 将 几乎 不 起 作用 。 反 之 , 若 身高 用 毫米 
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作 测量 单位 ;体重 用 公斤 表示 ,那么 在 x 与 y 为 坐标 的 图 上 ,点 之 间 的 距离 将 主要 由 身高 
来 决定 ,体重 将 几乎 不 起 作用 。 表 征 实体 间 亲 牙 程 度 的 量 依赖 于 原始 数据 测量 单位 的 情 
况 当然 是 不 能 被 接受 的 。 为 此 要 对 原始 数据 作 某 种 变换 ,变换 的 目的 是 使 得 实体 间 相 似 
系数 的 计算 不 因原 始 数据 使 用 不 同 的 测量 单位 而 受 影响 ,并 且 使 得 各 个 变量 对 相似 系数 
有 大 致 相等 的 贡献 。 数 据 的 这 种 转换 称 为 数据 的 标准 化 。 

数据 的 标准 化 有 多 种 方法 可 以 实现 ,下 面 介 绍 几 种 常用 的 数据 转换 方法 。 

(1) 数据 的 中 心 化 。 数 据 中 心 化 的 过 程 如 下 。 

先 计算 每 个 变量 的 平均 值 , 即 对 表 14-1 中 每 一 列 的 数据 计算 其 平均 值 x,, 然 后 该 列 
的 每 个 数据 均 减 去 它们 的 平均 值 z 

xy = ty- Fy (14-2) 

中 心 化 后 ,每 个 变量 的 平均 值 都 为 0, 但 是 它们 间 的 方差 还 是 有 差异 的 。 

(2) 数据 中 心 化 后 再 用 标准 差 进 行 标准 化 。 

计算 每 一 列 的 数据 的 标准 差 s; ,然后 将 公式 (14-2) RA s, 进一步 转换 数据 。 因 此 
用 标准 差 进行 标准 化 的 公式 为 


Қалын (14-3) 


这 个 数据 转换 过 程 实际 上 就 是 第 四 章 公式 (4-28) 计算 Z 分 量 [ Z = 2) 的 过 程 因 此 
式 (14-3) 也 可 写成 


25 = 一 一 (14-4) 
Д 
变换 后 的 数据 矩阵 为 
Xl 4i n-~- Xim 一 Хь 
51 52 Sm 

хл р Хә - 55 . m` Xm 
(25) аһ = sı s2 Sm (14-5) 

Xni 一 51 Xn2 — х) ... Хат 一 Жм 


51 52 ӛт 
经 上 面 的 转换 后 ,每 个 变量 不 仅 平 均值 均 为 0, 而 且 它 们 的 方差 相等 , 均 为 1。 如 果 原 始 数 
据 基本 服从 正 态 分 布 ,那么 矩阵 (14-5) 的 元 素 2; 中 , 约 有 95% 取 值 在 -2 与 2 之 间 ， 
99.7% 取 值 在 -3 与 3 之 间 变 动 , 式 (14- 3) 的 数据 标准 化 过 程 又 称 为 数据 的 正规 化 ， 是 最 
常用 的 数据 标准 化 的 转换 方法 。 
(3) 用 极 差 进行 标准 化 。 
在 每 列 数据 中 找 出 最 大 值 和 最 小 值 , 两 者 之 间 的 差 值 就 是 该 列 数据 的 极 差 R o 


= сілте ак 


Ј 


式 (14-4) 是 用 极 差 进行 数据 标准 化 的 公式 。 用 极 差 标 准 化 后 ,每 列 数据 中 的 最 大 值 为 1， 
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最 小 值 为 0, 其 他 数据 在 0 与 1 之 间 ,接近 了 数据 标准 化 的 目的 。 

但 是 每 列 数据 的 最 大 、 最 小 值 都 是 该 组 数据 的 极 值 ,有 可 能 是 偏离 平均 值 和 中 数 其 
远 的 歧 离 值 。 如 果 某 列 数据 的 最 大 值 偏离 中 数 很 远 ,该 组 数据 按 极 差 标准 化 后 ,大 多 数 
数据 值 将 靠近 0 而 偏 小 。 以 后 在 计算 相似 系数 时 ,该 变量 的 贡献 某 种 程度 上 会 被 压低 。 
这 是 用 极 差 进行 标准 化 的 缺点 。 

(4) 用 总 和 进行 标准 化 。 

首先 计算 各 列 数 据 的 总 和 > лу = з 


x'y = 2 (14-7) 


式 (14-7) 是 用 各 列 数 据 的 总 和 进行 数据 标准 化 的 公式 。 标 准 化 后 全 部 数据 均 是 小 于 1 的 
正 值 , 各 列 的 和 均 为 1, 即 Ха" = 10 = 1,2,5 т) 


数据 的 标准 化 还 有 其 他 的 方法 ,例如 用 各 列 数据 的 最 大 值 标准 化 ,用 各 列 数据 的 平 
方 和 ( 称 为 模 ) 标 准 化 ,用 各 列 数 据 的 离 差 平方 和 的 开 方 来 标准 化 等 。 

前 面 的 讨论 都 是 对 变量 进行 数据 的 标准 化 。 同 样 可 以 对 实体 进行 数据 的 标准 化 ,这 
需要 计算 各 行 数据 的 平均 值 . 标 准 差 、 极 差 , 总 和 和 最 大 值 等 。 还 可 以 同时 对 实体 和 变量 
标准 化 。 选 择 对 实体 还 是 对 变量 进行 标准 化 ,选择 哪 种 标准 化 的 方法 取决 于 实际 的 研究 
问题 。 但 是 对 变量 用 Z 分 量 的 方法 标准 化 , 即 正规 化 是 最 常用 的 方法 。 


1.3 实体 间 的 相似 系数 


聚 类 分 析 的 基本 过 程 是 把 全 部 实体 或 者 变量 ,根据 它们 之 间 的 相似 程度 逐步 聚合 为 
一 类 。 因 此 定义 和 计算 表征 实体 间或 者 变量 间 相 近 程 度 的 各 种 相似 系数 是 执行 育 类 过 
程 的 前 提 。 相 似 系 数 的 种 类 有 多 ,它们 适用 于 不 同 的 数据 类 型 ,而 且 也 因为 是 对 实体 还 
是 对 变量 进行 聚 类 而 不 同 。 我 们 将 介绍 三 种 不 同类 型 的 相似 系数 。 


14.3.1 距离 系数 


当 对 实体 聚 类 ,而 且 描 述 实体 的 变量 都 是 数值 变量 时 ,一 般 用 距离 系数 来 表征 实体 
间 的 相似 程度 。 在 用 变量 作为 坐标 的 空间 中 ,每 个 实体 可 以 看 作为 空间 中 的 一 个 点 。 两 
个 点 之 间 的 距离 di 反映 这 两 个 点 所 代表 的 两 个 实体 间 的 相 蜡 程度 。 qi; 越 小 ,表明 实体 间 
的 性 状 越 接近 ; da 越 大 ,表明 实体 间 的 性 状 差异 也 越 大 。 因 此 ,距离 或 距离 系数 实际 上 是 
实体 间 的 相 异 系数 。 前 面 我 们 已 经 说 明 相 异 系数 和 相似 系数 是 互补 的 ,都 是 表征 实体 间 
关系 亲 朴 的 度量 。 它 们 之 间 的 转换 是 很 容易 的 。 例 如 我 们 有 一 组 相 异 系数 ,它们 在 最 小 
值 0 和 某 个 最 大 值 工 间 变 动 ,现在 用 工 值 去 减 每 个 相 异 系数 ,原来 相 异 系数 的 最 小 值 0 转 
化 为 工 ,而 原来 相 异 系数 的 最 大 值 工 就 转化 为 0, 即 简单 的 减法 运算 把 一 组 相 异 系数 转化 
为 一 组 相似 系数 了 。 因 此 ,下 面 我 们 将 不 再 着 意 区 分 两 者 间 的 差别 ,而 且 统称 为 相似 系 
数 。 很 多 计算 机 软件 直接 处 理 相 异 系数 ,而 不 进行 它们 间 的 转换 。 

距离 系数 也 有 不 同 的 定义 ,这 里 介绍 三 种 距离 系数 。 
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(1) 绝对 值 距离 ,也 称 城市 街道 距离 ; 


дь = > | Ху 一 Хы | (14-8) 
(2) 欧 氏 距离 和 欧 氏 距离 的 平方 : 
m 1 
da = (709 - хь)°)? (14-9) 


КЕСА ОВАР, ААВС ООУ de = Ў Cay- ay)? EAIN 


性 度量 ,后 者 具有 数据 可 加 性 的 优点 。 

* (3) 马 氏 (Mahalanobis) 距 离 , 这 是 多 元 统计 分 析 中 一 个 十 分 重要 的 距离 系数 。 其 
定义 和 计算 公式 如 下 : 

di = [(х-х)'871(х- w) (14-10) 

AP х, 是 代表 第 ; 个 实体 的 矢量 ,也 可 以 看 作 (m x 1) Е, (х - х) 是 .2 个 矢量 的 差 ， 
S 是 实体 内 积 系数 矩阵 SRNE, Hm x m) ER, RE - х) ЕЖШ(х,-х,) 
的 转 置 , 式 (14-10) 是 这 3 个 矩阵 的 乘积 (矢量 也 可 以 看 成 矩阵 ,只 是 仅 有 1 列 或 仅 有 1 
行 )。 关 于 和 矩阵 的 运算 ,我 们 不 可 能 作 详 细 的 讨论 。 我 们 所 以 在 这 里 提 到 马 氏 距离 ,是 因为 
将 来 在 学 习 判 别 分 析 时 会 用 到 这 个 概念 。 此 外 如 果实 体 间 有 两 个 完全 相关 的 变量 , 虽然 
这 两 个 变量 转换 前 的 取 值 是 不 相等 的 (固定 的 倍数 ) ,但 在 数据 正规 化 后 ,这 两 个 变量 的 
取 值 将 相等 ,他 们 对 实体 间 的 欧 氏 距离 将 没有 贡献 ,但 马 氏 距离 却 不 受 变量 全 相关 的 影 
响 。 当 变量 间 完 全 不 相关 时 ,S-! 将 是 一 个 单位 矩阵 ,公式 (14-10) 简化 为 公式 (14-9) , 马 
氏 距 离 简 化 为 欧 氏 距离 ,因此 马 氏 距离 又 称 广 义 距离 , 马 氏 距离 在 多 元 统计 分 析 中 起 重 
要 的 作用 。 | 

所 有 距离 系数 都 是 大 于 或 等 于 0 的 ,对 所 有 的 实体 两 两 间 计 算 了 距离 系数 后 ,可 以 写 
成 一 个 n 行 n 列 的 矩阵 , 称 为 距离 系数 矩阵 。 


du dn … din 
d d “0 du 

Cdan s| ШИ ? (14-11) 
аһ а. . dan 


主 对 角 线 上 的 元 素 d; 都 等 于 0, 因 为 每 个 客体 自己 与 自己 间 不 存在 距离 ,此 外 主 对 角 线 
两 侧 的 元 素 是 镜 相 对 称 的 , 即 dx = duo 距离 系数 矩阵 是 聚 类 分 析 的 基础 数据 , 聚 类 分 析 
的 过 程 是 从 距离 系数 和 矩阵 出 发 的 。 


14.3.2 内 积 系 数 


前 小 节 介 绍 用 距离 系数 作为 实体 间 的 相似 系数 ,原则 上 距离 系数 也 可 以 用 来 表征 变 
量 间 的 相似 程度 , 仅 需 要 在 п 维 的 实体 空间 中 计算 变量 间 的 距离 。 但 实际 上 为 表征 变量 
间 的 相似 程度 用 得 更 多 的 是 各 类 内 积 系数 , 即 夹 角 余 弦 ,方差 - 协 方差 和 相关 系数 等 。 

1. KARZ 

原始 数据 矩阵 (14-1) 的 每 一 列 是 一 个 变量 在 п 维 实体 空间 中 的 取 值 ,也 可 以 看 成 一 
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个 维 的 矢量 。 两 个 变量 矢量 的 点 积 也 称 为 它们 的 内 积 。 


Qr = Уау‘ ха (14-12) 
式 子 (14-12) 给 出 变量 у 和 变量 & 之 间 的 内 积 系 数 。 从 基础 三 角 知识 可 知 ,两 个 矢量 内 积 
的 数值 等 于 两 个 矢量 的 长 度 和 它们 间 夹 角 余 弦 的 乘积 。 即 有 
Qn ` 

70,6 (14-13) 
(14-12) 分 母 中 的 0; ЖО, DIERE Mk RKE cosb, 是 两 个 变量 矢量 间 夹 角 的 余 
弦 , 可 以 作为 两 个 变量 间 的 相似 系数 , 当代 表 两 个 变量 的 矢量 相 重 释 时 ,cosbx = 1, 而 当 
两 个 矢量 垂直 时 ‚созбу = 0. 

2. 方差 一 协 方差 。 

如 果 原 始 数 据 和 矩阵 已 经 按 公式 (14-2) 中 心 化 , 那么 内 积 系数 0. 是 变量 j 和 上 大 的 协 方 
ЗЕ соу(ј, Е) = ssjs 的 (n - 1) 售 。 因为 协 方差 的 定义 是 


созӣ; = 


1 ч 一 一 
SS = ---124(% - (а — х3) (14-14) 
іші 


也 写作 
соу(ј, Е) = SSj (14-15) 


而 当 j = k 时 ,公式 (14-14) 就 是 变量 ) 和 上 的 方差 ? = sy Ms = sa。 因 此, 量 -一 圭一 


依然 是 两 个 变量 矢量 的 夹 角 余弦 ,依然 可 作为 变量 间 相 似 系 数 的 度量 。 

3. 相关 系数 。 

如 果 原 始 数 据 已 经 根据 式 (14-3) 按 标准 差 标 准 化 了 , 即 已 转换 为 正规 化 的 数据 矩阵 
(14-5), 那么 方差 $ 和 吕 均 等 于 1, 协 方差 cov(j,k) = sp 在 数值 上 就 等 于 两 变量 j 和 [8] 
的 相关 系数 了 。 因此 变量 间 的 相关 系数 是 变量 间 相 近 程 度 的 度量 ,也 可 以 作为 变量 间 的 
相似 系数 。 


14.3.3 匹配 系数 和 关联 系数 


上 面 两 小 节 讨 论 的 是 数值 变量 的 情况 ,分 别 介 绍 了 用 距离 系数 度量 实体 间 的 相似 程 
度 和 用 内 积 系 数 、 协 方差 和 相关 系数 等 作为 变量 间 相 似 程度 的 度量 。 本 小 节 讨 论 二 元 变 
量 的 情况 。 考 虑 有 2 个 实体 ,它们 均 被 12 个 二 元 变量 所 描述 ,如 表 14-1 所 示 。 


表 14-1 2 个 实体 的 12 个 二 元 变量 的 取 值 


егег Тегаи 
实体 1 | 0 | 0 [1 [1 [Г 1 [о [о |1 тога | 
实体 2 0 1 1 1 0 


то1о јо[1 (1 | 


对 表 14-1 的 数据 可 以 理解 为 2 个 动物 群 中 12 种 物种 的 有 无 ,也 可 以 理解 为 2 个 墓葬 
中 12 种 器 物 的 是 否 存在 。 将 表 14-1 的 数据 理解 为 12 种 物种 在 2 个 动物 群 出 现 情况 的 统 
计 , 并 按 交叉 列 联 表 形式 整理 如 下 : 
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表 14-2 12 种 物种 在 2 个 动物 群 分 布 情况 的 交叉 列 联 表 


| | O 实体 | 实体! | 
观测 到 的 物种 数 
实体 2 观测 到 的 物种 数 4-4 


表 14-2 是 我 们 已 在 第 十 章 中 见 到 的 2 x 2 交叉 列 联 表 。 表 中 的 a 与 4 分 别 是 在 2 个 
实体 (动物 群 ) 中 共同 观测 到 的 和 都 没有 观测 到 的 物种 的 数目 ,这 些 物种 的 发 现 与 否 对 两 
个 实体 是 共同 的 ,它们 表征 两 个 动物 群 的 共性 。b 与 c 是 仅 在 一 个 动物 群 中 发 现 \ 而 在 另 
一 动物 群 中 未 发 现 的 物种 数 , 表 征 两 个 动物 群 的 相 蜡 性 。 因 此 可 以 用 下 列 的 各 匹配 系数 
来 表征 实体 间 相 似 的 程度 。 

1. 简单 匹配 系数 。 


(a+d)/la+b+c+d) (14-16) 
简单 匹配 系数 的 数值 是 在 0 与 1 之 间 波 动 ,数值 越 大 ,表示 两 实体 的 性 状 间 越 接近 。 但 是 
简单 匹配 系数 有 一 定 的 缺点 ,因为 某 个 物种 不 出 现 的 情况 可 能 比较 复杂 , 例如 在 8.5 1 
中 曾 论 述 到 考古 调查 中 没有 发 现 某 类 物种 不 一 定 说 明 该 类 物种 的 确 不 存在 。 以 比较 早 
晚 两 期 两 座 墓 茸 的 相似 程度 为 例 , 晚 期 的 器 物 当然 不 能 在 早期 的 董 葬 中 出 现 ,但 也 不 是 
每 种 晚期 器 物 都 必须 出 现在 每 一 座 晚期 的 幕 莫 中。 某 种 晚期 器 物 在 两 座 墓葬 中 的 共同 
缺失 并 不 一 定 反映 这 两 座 墓 的 共性 。 因 此 提出 了 另 一 种 匹配 系数 , 即 Jaccard ЖЖ. 
2. Jaccard 系数 。 
Jaccard 系数 不 考虑 物种 在 两 个 实体 中 都 不 存在 的 情况 ,因此 需要 排除 公式 (14-16) 中 
“4” 。 其 表达 式 为 
о/(а+ + с) (14-17) 
还 可 以 定义 有 其 他 的 匹配 系数 。 它 们 都 是 在 0 与 1 之 间 变 动 。1 表示 完全 相似 ,而 0 为 
全 不 相似 。 
3. 各 种 关联 系数 和 关联 强度 系数 。 
除了 匹配 系数 外 ,还 可 以 用 二 元 变量 间 的 各 种 关联 系数 来 表征 实体 之 间 的 相似 程 
度 。 常 用 的 系数 有 公式 (10-3) 定 义 的 x? 系数 。 
2 n(ad - ьс)? 
X = (а+ъ)0 ; d)(a УС +4) 
Н п=а+5Ь+с+4 
ЖЯ (10-4) Ж Йй) Ф АЖ 


2 
-JX | ad – be | 
ЖЕ (а + b)(b + d)la + c)lc 4 d) 
和 公式 (10-6) 定 义 的 Yule’s 0 系数 


ad - pc 
0 = id + be 
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4.4 等 级 聚 类 的 原理 、 过 程 和 问题 


等 级 聚 类 有 不 同 的 聚 类 方法 ,或 聚 类 策略 。 下 面 通过 一 个 实例 来 说 明 等 级 聚 类 的 过 
程 ,同时 介绍 聚 类 方法 的 选择 。 

表 14-3a 是 7 片 原始 次 样品 中 12 个 元 素 含量 的 中 子 活化 测量 结果 。 其 中 3 片 出 自 江 
西 吴 城 ,3 片 安 徽 苍 圆 境 和 1 片 广东 博 罗 梅 花 墩 ,都 属于 商 周 时 期 。 这 些 数据 是 从 第 十 五 
章 表 15-28(86 片 原始 次 中 19 个 元 素 的 含量 值 ) 中 摘录 的 。 | 


Ж 14-3a 7 片 原始 资 样品 中 12 种 元 案 含 量 的 中 子 活化 测量 结果 
(K,Na 的 测量 单位 为 % ,其 他 元 率 为 uge) 

Ce Cr Eu Hf K La Іш Ма Nd Sm Ть ҮЬ 
819 77.9 90.3 1.75 9.08 1.34 46.9 0.57 0.22 31.22 10.37 0.49 3.44 
%20 811 85.2 1.8. 927 1.39 44.5 0.59 0.25 33.07 11.43 0.58 3.5 
822 101.3 95.7 1.93 6.46 1.69 59.5 0.61 0.47 41.22 11.64 0.54 3.8 
#57 937 395 13 856 2.12 504 0.39 1.41 514 6.01 0.77 2.21 
4558 95.3 37.5 1.3 9.74 2.34 48.3 0.47 1.53 39.2 6.12 0.78 2.77 
#59 89.9 33.1 1.25 3.26 2.05 49.8 0.36 1.42 384 5.98 0.79 1.95 
807 141 74.4 1.81 10.6 2.17 73 0.54 0.10 66.2 10.1 1.44 4.93 
平均 值 97.17 65.10 1.59 8.14 1.87 53.22 0.50 0.77 42.96 8.81 0.77 3.23 
标准 差 20.96 27.40 0.29 2.50 0.40 9.90 0.10 0.64 1214 2.65 0.32 1.02 


对 原始 数据 使 用 变量 的 标准 差 标 准 化 ,得 各 个 Z 分 量 值 , 数 据 列 于 表 14-3b。 


表 14-3b 7 片 原始 资 样品 中 12 个 元 素 含 量 用 标准 差 标准 化 后 的 Z 分量 数据 


Ce Cr Еп Hf K La Lu Na Nd Sm Tb Yb 
R19 -0.920 0.920 0.532 0.376 – 1.329 -0.633 0.655 -0.848 -0.967 0.591 -0.874 0.208 
3520 -0.768 0.734 0.704 0.452 -1.216 -0.872 0.854 -0.809 -0.814 0.990 -0.598 0.267 
吴 22 0.199 1.117 1.155 -0.671 -0.460 0.635 1.087 -0.464 -0.144 1.070 -0.719 0.561 
Ф 57 -0.165 -0.934 -0.992 0.169 0.626 – 0.285 -1.157 1.001 0.695 – 1.057 – 0.008 - 1.000 
4-58 -0.089 -1.008 -0.992 0.640 1.177 -0.497 – 0.311 1.141 – 0.310 -1.015 0.050 - 0.450 
Ф 59 -0.347 -1.168 -1.163 -1.949 0.450 – 0.345 -1.456 1.016 -0.375 – 1.068 0.063 – 1.256 
博 07 2.090 0.340 0.755 0.984 0.751 1.997 0.327 -1.037 1.914 0.489 2.087 1.671 


Ж 14-3Ь EREKE БАЛА ЖЕ. TERIER КЕ ВЕУ АНША, 7 片 
Је ЗД ЖЕКЕ m РАЯ ЇН] ИК ЕВЕ НУТ У А.Ж 14-4, 

欧 氏 距离 相似 系数 矩阵 实际 上 是 一 个 相 异 系数 矩阵 , 主 对 角 线 上 的 元 素 都 是 0, 因 为 
在 化 学 元 素 组 成 的 变量 空间 中 每 块 次 片 自己 与 自己 间 是 不 存在 距离 的 。 主 对 角 线 两 侧 
对 称 位 置 单元 格 中 的 数值 是 相等 的 ,因为 空间 中 两 个 点 交换 位 置 不 会 改变 它们 之 间 的 距 
离 。 因 此 育 类 过 程 中 只 需 考 虑 主 对 角 线 右上 方 的 元 素 ,把 相似 系数 逢 阵 作 为 三 角 阵 
对 待 。 
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表 14-4 7 片 原始 次 样品 根据 其 元 素 含量 的 Z 值 计算 欧 氏 距离 的 相似 系数 和 矩阵 


1 2 3 4 5 6 7 

Ж 19 R 20 吴 22 Ж 57 58 Ф 59 梅花 7 
1 其 19 0.000 0.683 2.555 4.970 4.720 5.502 6.358 
2 5. 20 0.683 0.000 2.413 5.057 4.758 5.652 6.157 
3 吴 22 2.555 2.473 0.000 5.198 5.040 5.613 4.998 
4 Җ& 57 4.970 5,057 5.198 0.000 1.623 2.438 6.116 
5 Ж 58 4.720 4.758 5.040 1.623 0.000 3.059 6.094 
6 # 59 5.502 5.652 5.613 2.438 3.059 0.000 7.334 
7 博 07 6.358 6.157 4.998 6.116 6.094 7.334 0.000 


ЖЕ Б Е УНО НОЗ Я В — HA, М. 14-4 中 看 到 1 号 和 2 号 实体 间 
的 距离 最 短 ,是 0.683。 因 此 第 一 步 是 把 它们 素 成 一 组 , 当成 一 个 实体 。 第 二 步 是 要 确定 
这 个 合并 实体 与 其 他 实体 之 间 的 距离 ,例如 怎样 确定 (1,2) 合 并 组 与 3 号 实体 之 间 的 距 
离 ,这 里 有 多 种 方法 可 供 选 择 , 称 为 不 同 的 等 级 聚 类 方法 。 


14.4.1 等 级 聚 类 方法 


本 小 节 将 通过 计算 (1,2) 合 并 组 与 3 号 实体 之 间 的 距离 ,介绍 几 种 常用 的 等 级 聚 类 方 
法 。 

1. 最 近邻 体 法 (Nearest neighbor) 。 由 表 14-4 可 见 ,实体 对 (1,3) 和 (2,3) 的 距离 分 别 
为 2.555 和 2.473。 最 近邻 体 法 是 从 中 选 一 个 短 的 距离 , 即 2.473 作为 合并 组 (1,2) 与 3 
号 实体 间 的 距离 。 最 近邻 体 法 又 称 简单 联系 (single linkage) 法 , 它 更 广泛 的 意义 是 在 两 组 
实体 间 , 选 择 一 对 最 接近 的 实体 ,以 这 两 个 实体 之 间 的 距 敲 作为 这 两 个 实体 组 之 间 相 似 
程度 的 度量 。 

2. 最 远 邻 体 法 (Furthest neighbor)。 最 远 邻 体 法 从 (1,3) 和 (2,3) 的 距离 2.555 和 
2.473 中 选 一 个 长 的 距离 , 即 以 2.555 作为 合并 组 (1,2) 与 3 号 实体 间 的 距离 。 最 远 邻 体 
法 又 称 完全 联系 (Complete linkage) 法 , 它 与 最 近邻 体 法 相反 ,在 两 组 实体 间 选 择 一 对 差异 
最 大 的 实体 ,以 这 两 个 实体 之 间 的 距离 作为 这 两 个 实体 组 之 间 的 距离 。 

显然 ,这 两 种 方法 有 共同 的 缺点 ,在 1,2 号 两 个 实体 分 别 与 3 号 实体 的 距离 中 只 选择 
了 其 中 的 一 个 距离 。 在 后 面 的 聚 类 过 程 中 只 有 被 选 的 那个 距离 值 将 得 到 考 上 处 ,因此 这 两 
种 方法 分 别 使 距离 拉 近 变量 空间 被 压缩 或 者 把 距离 推 远 空间 被 扩张 。 

3. 组 平均 法 (Between group average)。 组 平均 法 以 (1,3) 和 (2,3) 的 距离 2.555 和 
2.473 的 平均 值 2.514 作为 合并 组 (1,2) 与 3 号 实体 间 的 距离 。 因 此 组 平均 法 又 称 为 平均 
联系 (average linkage) 法 。 组 平均 法 的 一 般 计算 公式 是 : 


de,ors = п бы. + п 机 пуй. (14-18) 

式 中 的 4d 代表 距离 ,n。 Яй л, ФЕ (а, b) 实体 组 中 实体 a 和 ”的 数目 。 组 平均 法 的 计算 
工作 量 比 上 面 2 种 方法 大 些 , 但 克服 了 它们 的 上 述 缺 点 。 | 

上 面 三 种 聚 类 方法 都 是 适用 于 以 欧 氏 距离 作为 相似 系数 的 情况 。 下 面 介 绍 几 种 适 
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用 于 以 欧 氏 距离 的 平方 值 作为 相似 系数 情况 的 聚 类 方法 。 

4. 中 线 法 (Median) , 它 是 在 变量 空间 中 代表 。 号 实体 的 点 与 连接 e 和 2 ЖАНЫН 
中 间 点 之 间距 离 的 平方 值 作为 合并 组 (a,5) 与 c 号 实体 间 的 相似 系数 。 具 体 的 计算 公 
式 是 


deare = te, + 24.. - ie, (14-19) 


式 中 的 42 是 i,j ЖИНИНЕ. ERLU ESRF , 26014-19) P ЖЕБЕНИН @ 
义 如 图 14-1 所 示 ,初等 几何 就 能 证 明 公式 (14-19) 的 成 立 。 


141 中 线 聚 类 法 的 示意 图 


5. 重心 法 (Centroid)。 重 心 法 是 中 线 法 的 一 种 变型 , 它 计 算 变 量 空间 中 代表 с 号 实 
体 的 点 与 连接 a ,6 实体 点 的 线段 的 重心 之 间距 离 的 平方 值 ,并 作为 。 号 实体 与 合并 组 
(a,5) 间 的 相似 系数 ,与 中 线 法 不 同 之 处 在 于 :不 再 将 ab 线段 的 中 间 点 、 而 是 a ЯЬ 号 实 
体 的 重心 作为 (a,5) 合并 组 的 代表 。 重 心 位 置 的 确定 需要 考虑 (a ,5) 组 内 各 自 包 含 的 实 
体 的 数目 。 重 心 法 的 计算 公式 比 式 (14-19) 略为 复杂 ,这 里 不 予 写 出 。 
6. Ward's 方法 ,又 称 平方 和 增 量 方法 。 它 是 基于 方差 分 析 的 思想 ,使 得 每 次 合并 后 
总 的 平方 和 的 增加 尽量 小 。 其 计算 公式 是 
п. + Па п. + n, с 
AF D 为 相似 系数 ( 即 欧 氏 距 离 的 平方 值 ) , 诸 =” 值 代表 各 相应 组 所 包含 的 实体 数 。 
在 上 述 诸 聚 类 方法 中 ,Ward’s 方法 和 组 平均 方法 得 到 最 广泛 的 应 用 ,后 者 也 称 均值 


REHE. 
14.4.2 等 级 聚 类 过 程 


聚 类 过 程 的 出 发 点 是 由 原始 数据 标准 化 后 计算 得 到 的 实体 间 的 相似 系数 矩阵 。 下 
面 用 组 平均 方法 对 表 14-4 的 相似 系数 矩阵 执行 聚 类 过 程 。 

(1) 前 面 已 看 到 ,第 一 步 是 将 两 个 最 接近 的 实体 1 和 2 聚合 ,聚合 水 平 是 0.683。 再 
用 式 (14-18) 计 算 其 他 各 实体 与 (1,2) 合 并 组 的 相似 系数 ,得 到 表 14-5a。 


D,,s (14-20) 
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Ж 14-5а WÈ 14-4 的 数据 第 一 步 聚 类 的 结果 


1,2 3 4 5 6 7 
1,2 0.000. 2.514 5.014 4.739 5.577 6.258 
3 0.000 5.198 5.040 5,613 4.998 
4 0.000 1.623 2.438 6.116 
5 0.000 3.059 6.094 
6 0.000 7.334 
7 0.000 


表 14-5а 与 表 14-4 比较 , 行 与 列 的 数目 均 少 1 ,而 且 第 一 行 的 数据 发 生 了 变化 。 

(2) 在 表 14-5а 中 ,最 小 的 数 为 1.623, 即 最 为 相互 接近 的 是 实体 4 和 实体 5。 第 二 步 
是 将 4 和 5 两 实体 聚合 ,聚合 水 平 是 1.623 ,并 根据 公式 14-18 计算 (4,5) 合 并 组 与 其 他 各 
实体 之 间 的 相似 系数 ,得 到 表 14-5b。 


家 14-5b 第 二 步 聚 类 结果 


1,2 3 4,5 6 7 
1,2 0.000 2.514 4.877 5.577 6.258 
3 0.000 5.119 5.613 г 4.998 
4,5 0.000 2.749 6.105 
6 ‚0.000 7.334 
7 0.000 


(3) 聚 类 过 程 的 第 三 步 应 该 是 实体 3 与 (1,2) 实 体 组 聚合 ,聚合 水 平 是 2.514。 计 算 
其 他 各 实体 与 (1,2,3) 合 并 组 的 相似 系数 ,得 到 表 14-5c。 这 里 需要 注意 的 是 :计算 实体 组 
(4,5) 与 实体 组 (1,2,3) 的 相似 系数 时 ,应 考虑 实体 3 是 一 个 单独 的 实体 ,而 实体 组 (1,2) 


包含 2 个 实体 。 因 此 这 个 相似 系数 = 254-877 +5119 =- 4.958。 同 理 ,实体 6 与 实体 组 
(1,2,3) 的 相似 系数 22:577+5:613 -5.589。 实 体 7 与 实体 组 (1,2,3) 的 相似 系数 = 


2 х6,258 + 4,998 = 5.8386 
3 
表 14-$e ”第 三 步 聚 类 结果 
1,2,3 4,5 6 7 

1,2,3 0.000 4.958 5.589 5.838 

4,5 0.000 2.749 6.105 

6 0.000 7.334 

7 0.000 


(4) 第 四 步 应 该 是 实体 6 与 (4,5) 实 体 组 聚合 ,聚合 水 平 是 2.749。 计 算 其 他 实体 与 
(4,5,6) 组 的 相似 系数 ,得 到 表 14-5d。 计 算 相 似 系数 时 同样 要 考虑 各 组 包含 实体 数 的 不 


同 。 实 体 组 (1,2,3) 与 实体 组 (4,5,6) 的 相似 系数 = 7*5:9585+5.5®) _ 5.168, 实 体 组 (4， 
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2х6.105 + 7.334 


5,6) 与 实体 7 的 相似 系数 = 一 3 =6.515 
#1454 第 四 步 聚 类 结果 
1,2,3 4,5,6 7 
1,2,3 0.000 5.168 5.838 
4,5,6 0.000 6.515 
7 0.000 


(5) 第 五 步 是 将 (1,2,3) 和 (4,5,6) 组 合并 , 育 合 水 平 为 5.168, 得 到 表 14-5e。 
表 14-5e 第 五 步 聚 类 结果 


1,2,3,4,5,6 7 
1,2,3,4,5,6 0.000 6.177 
7 0.000 


(6) 最 后 在 6.170 水 平 上 ,所 有 的 实体 聚合 成 一 组 。 现 将 上 面 组 平均 方法 的 聚 类 过 
程 总 结 在 表 14-6 中 。 


È 14-6 聚 类 过 程 总 结 


合并 步骤 组 1 组 2 聚合 水 平 ЖЖ ЕЖ 
1 1 2 0.683 6 
2 4 5 1.623 5 
3 1,2 3 2.514 4 
4 4,5 6 2.748 3 
5 1,2,3 4,5,6 5.168 2 
6 1,2,3,4,5,6 7 6.176 1 
САбЕ 0 1.24 2.48 3.72 4.96 6.2 
Label Num 十 一 一 一 一 一 一 一 一 一 十 -一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 %--------- %--------- + 
519 1 
5%20 2 
522 3 
#57 4 
458 5 
Ж59 6 
#07 7 


142 均值 聚 类 方法 对 7 КИИНЕ Р RAe F a АЁ ВЕ ЖЕ Т Б] БЕК ЖЕ ЖЕН 


前 面 聚 类 过 程 的 最 后 结果 用 树枝 状 图 14-2 表示 ( 因 排 版 原因 ,该 图 需 旋转 90 度 观 
察 )。 底 线 上 列 出 7 个 参加 聚 类 的 实体 ,不同 高 度 处 的 水 平 线段 反映 在 该 聚合 水 平 下 , 哪 
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两 个 实体 或 实体 组 聚合 成 一 组 。 这 样 的 水 平 线段 共有 6 条 ,代表 6 次 聚合 过 程 。 根 据 树 
枝 状 图 最 终 应 将 这 7 个 实体 分 成 几 类 呢 , 这 取决 于 分 类 界限 值 ,或 称 聚 类 水 平 值 的 选择 。 
如 果 分 类 界限 值 取 在 聚合 水 平 2.748 和 5.168 之 间 ,那么 7 个 实体 被 分 成 3 类 ,分 别 是 实 
ЖаН (1,2,3) .(4,5,6) #1 实体 7。3 类 实体 正好 与 瓷 片 的 3 个 产地 符合 。 如 果 将 分 类 界限 
值 提高 到 5.168 和 6.176 之 间 , 那 么 7 片 瓷 片 将 分 成 2 类 ,1 一 6 号 瓷 片 , 即 吴 城 和 苍 圆 境 
的 6 片 瓷 片 共聚 成 一 类 ,而 博 罗 的 1 片 次 片 自 成 一 类 。 显 然 不 应 把 分 类 的 聚合 水 平 选取 
得 太 低 ,使 得 分 类 的 组 数 过 多 ,分 类 组 数 过 多 显然 是 没有 意义 的 。 在 这 个 演示 例子 中 ,次 
片 的 先 验 分 类 , 即 它们 的 产地 是 已 知 的 ,7 片 瓷 片 出 土 于 三 个 地 点 。 聚 类 分 析 的 目的 只 是 
检验 瓷 片 按 其 化 学 组 成 分 类 的 结果 与 先 验 的 产地 知识 是 否 一 致 。 如 果 事 先 不 掌握 先 验 
分 类 的 知识 ,怎样 确定 分 类 界限 值 , 即 应 该 将 全 部 实体 分 成 几 类 ,是 需要 认真 考虑 的 问 
题 ,我 们 将 在 下 一 小 节 中 讨论 。 


14.43 关于 等 级 聚 类 的 一 些 问题 


等 级 聚 类 由 于 其 数学 原理 简单 明了 ,不 需要 对 于 原始 数据 的 分 布 作 任 何 前 提 假 设 ， 
分 类 结果 直观 等 特点 ,在 各 个 学 科 都 得 到 广泛 的 应 用 。 但 是 在 实际 应 用 中 也 有 一 些 问 题 
是 需要 注意 的 。 

1. 在 一 些 实际 问题 中 ,我 们 事先 并 没有 关于 实体 根据 其 外 在 性 状 分 类 的 先 验 知识 ， 
那么 在 得 到 树枝 状 图 后 ,应 该 怎样 选取 决定 分 类 组 数 的 聚合 水 平 ,应 该 将 实体 分 成 几 类 
呢 ? 这 涉及 类 的 概念 和 分 类 的 标准 ,这 方面 并 没有 被 普遍 接受 的 共识 。 大 致 可 以 考虑 以 
下 几 点 :(1) 每 类 的 实体 数 不 应 太 多 ;(2) 每 个 类 的 个 体 间 不 应 相互 间 差 别 太 大 ,而 各 类 的 
重心 间 应 该 有 较 大 的 差异 ;(3) 分 类 的 结果 不 应 与 常识 相 迟 ;(4) 不 同方 法 的 分 类 结果 不 
应 差别 太 大 。 

2. 上 面 的 第 4 点 是 十 分 重要 的 , 聚 类 分 析 的 结果 依赖 于 相似 系数 和 聚 类 方法 的 选 
择 。 选 取 不 同 的 相似 系数 和 使 用 不 同 的 聚 类 方法 可 能 会 给 出 不 同 的 树枝 状 聚 类 图 ,给 出 
不 完全 相同 的 分 类 结果 。 图 14-3 和 图 14-4 分 别 是 用 最 近邻 体 法 和 Ward’ s 方法 对 前 述 7 
片 原始 次 的 树枝 状 聚 类 图 。 与 图 14-2 比较 ,可 以 看 到 ,如 果 把 7 ПЛА З Ж,3 种 分 
类 结果 是 一 致 的 ,正好 与 瓷 片 的 3 个 产地 相对 应 。 但 是 如 果 把 它们 分 成 两 类 , Wad 方法 
将 吴 城 和 博 罗 的 瓷 片 合并 为 一 类 , 苍 圆 境 为 男 一 类 ,而 其 他 两 种 方法 却 把 吴 城 和 苍 圆 境 
归 为 一 类 , 博 罗 的 1 片 瓷 片 自 成 一 类 。 

从 3 种 聚 类 分 析 的 结果 看 ,如 果 将 7 片 瓷 片 分 成 3 类 , 聚 类 结果 是 稳定 的 ,没有 因 聚 
类 方法 不 同 而 改变 ,而 且 与 外 在 的 先 验 知识 , 妈 关 于 原始 奖 片 产地 的 知识 也 一 致 。 至 于 
在 3 类 瓷 片 之 间 哪 两 类 瓷 片 的 化 学 组 成 更 接近 ,3 种 聚 类 分 析 方法 给 出 的 结果 是 矛盾 的 。 
为 了 判别 娜 种 聚 类 方案 更 符合 实际 ,需要 有 更 多 的 痪 片 样品 参加 分 析 , 并 与 其 他 的 分 类 
方法 的 结果 进行 比较 。 

在 这 个 例子 中 ,实体 数目 很 少 , 仅 7 片 网 片 ,而 且 各 地 瓷 片 的 化 学 组 成 差别 也 较 大 ， 
因此 聚 类 分 析 的 结果 比较 稳定 。 当 参加 分 析 的 实体 数目 很 大 时 ,不同 的 聚 类 方法 一 般 不 
可 能 给 出 完全 一 致 的 树枝 状 聚 类 图 , 仅 能 希望 的 是 得 到 “大 同 小 异 ” 的 分 类 结果 。 为 了 和 希 
望 分 类 结果 能 真实 反映 数据 的 内 在 结构 ,而 不 是 分 类 方法 的 误导 ,作者 强烈 提倡 同时 用 
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САбЕ 0 1 2 3 4 5 
Label Num +--------- +--------- %--------- %--------- %--------- + 


吴 9 1 


2 
吴 22 3 
4 


Ф 
а ос a 


143 最 近邻 体 法 对 7 片 原始 资 片 按 其 化 学 组 成 聚 类 的 树枝 状 聚 类 图 


САЅЕ 0 5 10 15 20 25 
Label Num +--------- %--------- %--------- %--------- %--------- + 
吴 19 1 
吴 20 2 
吴 22 3 
#07 7 
458 4 
#59 5 
#57 6 

图 14-4 Ward's F3 7 A AA H ЗЕ {К A R R K Ao p E R R E A 
〈 聚 类 水 平 未 按 比例 显示 ) 


两 种 或 两 种 以 上 的 方法 对 同一 组 数据 进行 分 类 ,包括 等 级 聚 类 , 非 等 级 聚 类 、 分 划 以 及 主 
成 分 分 析 等 多 种 分 类 方法 。 以 便 能 有 较 高 的 置信 度 确 认 分 类 结果 的 稳定 性 和 可 解释 性 。 

单 种 方法 等 级 聚 类 的 结果 有 时 会 误导 的 。Wright(1989) 曾 在 平面 上 随机 产生 了 一 些 
二 维 的 点 (а, уг) ,如 图 14-5a 所 示 ,这 些 点 基本 上 是 连续 、 均 匀 地 分 布 的 。 但 是 用 Ward 
的 方法 对 它们 进行 聚 类 , 却 明显 地 分 成 二 类 ( 见 图 14-5b) 。 

在 这 个 例子 中 , 聚 类 方法 对 本 身 并 没有 分 组 结构 的 数据 给 出 了 实际 不 存在 的 分 组 结 
果 ; 另 一 方面 聚 类 分 析 并 不 能 保证 能 完全 正确 地 揭示 数据 中 确实 存在 的 分 组 结构 。 例 
如 ,在 后 面 14.5 节 对 殷墟 颅骨 的 分 类 研究 中 ,虽然 均值 聚 类 正确 地 对 22 组 颅骨 分 成 北 
亚 ,东亚 和 高 加 索 等 3 组 ,但 是 Ward 方法 却 未 能 将 东亚 和 高 加 索 两 组 颅骨 分 开 。 鉴 于 育 
类 方法 还 有 下 面 将 介绍 的 其 他 一 些 缺 点 ,尽管 不 断 有 使 用 此 类 方法 分 析 考 古 数据 ,特别 
是 科技 考古 数据 的 文章 发 表 , 有 部 分 西方 考古 学 家 怀疑 聚 类 分 析 方 法 处 理 考 古 资 料 的 能 
力 。 两 本 英国 出 版 的 关于 多 元 统计 分 析 应 用 于 考古 研究 的 专著 :Baxter(1994) 书 的 第 八 章 
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14-5 Ward 方法 对 随机 产生 的 点 进行 聚 类 的 结果 :图 a 是 随机 点 的 散 点 
图 ,图 中 的 点 分 别 用 聚 类 分 析 的 分 类 类 别 A 和 3 标记。 图 b 是 聚 
类 树枝 状 图 ,有 明显 分 为 A 和 B 两 类 。 


和 Shennan(1997) 书 的 第 十 一 章 ,都 详细 地 讨论 了 育 类 方法 的 优 缺点 ,他 们 强调 要 审慎 地 
对 待 由 单一 聚 类 方法 给 出 的 分 类 结果 ,建议 聚 类 方法 与 其 他 分 类 方法 的 结合 。 这 点 是 十 
分 重要 的 。 

3. 等 级 聚 类 还 有 其 他 的 弱点 值得 我 们 注意 。 例如 ,如 果实 体 e ЯЬ 在 聚 类 的 初期 阶 
段 被 分 在 同一 组 ,那么 在 整个 分 类 过 程 中 a 和 4 将 一 直 在 一 起 ,不 能 进行 调整 。 如 果 某 个 
实体 因为 某 种 偶然 因素 被 错误 地 分 到 某 一 组 ,那么 这 个 错误 会 自始至终 地 影响 后 面 的 聚 
类 过 程 ,有 时 会 导致 严重 的 后 果 。 在 下 一 章 中 将 介绍 K- meas 方法 分 类 中 ,实体 在 初始 
的 分 类 组 之 间 是 可 以 调整 的 。K 方法 给 出 的 是 网 状 的 分 类 图 ,而 不 是 树枝 状 的 。 | 

等 级 聚 类 的 另 一 缺点 是 不 易 看 出 原始 数据 中 的 各 变量 对 树枝 状 聚 类 图 的 建立 的 作 
用 , 即 难以 分 析 每 个 变量 的 取 值 范围 和 分 布 在 分 类 中 的 作用 。 而 在 主 成 分 分 析 中 通过 因 
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子 负 载 , 在 判别 分 析 中 通过 判别 函数 能 清楚 地 ,而 且 定 量 地 揭示 每 个 变量 在 实体 分 类 中 
的 贡献 。 因 此 从 这 个 角度 我 们 也 提倡 在 对 考古 资料 和 科技 考古 资料 数据 进行 等 级 聚 类 
分 析 时 ,尽量 同时 使 用 主 成 分 分 析 等 其 他 多 元 统计 方法 ,以 便 能 诠释 原始 数据 中 各 变量 
与 分 类 方案 间 存 在 的 因果 关系 。 

4. 等 级 聚 类 的 优点 是 , 它 不 仅 对 实体 进行 了 分 类 ,而且 因为 每 个 实体 的 聚 类 过 程 有 
先后 次 序 , 从 而 产生 的 树枝 状 的 聚 类 结构 能 给 出 补充 的 信息 。 如 果 被 分 类 的 实体 是 生物 
学 的 物种 ,那么 树枝 状 的 系统 结构 能 提供 关于 生物 种 属 的 发 生 和 演化 的 信息 。 但 是 聚 类 
分 析 应 用 于 古 陶瓷 的 产地 济源 中 ,树枝 状 的 系统 结构 的 含义 并 不 容易 解释 ,各 地 陶瓷 的 
化 学 组 成 间 不 存在 演化 的 关系 。 


1.5 等 级 聚 类 应 用 实例 :安阳 息 墟 颅骨 的 种 系 分 类 研究 


1928—1935 年 在 安阳 有 拒 墟 进行 了 举世 瞩目 的 12 次 考古 发 掘 ,其 成 果 之 一 是 在 西北 岗 
ЖЕЛЕР Е Т 300 多 有 具 古人 的 颅骨 ,这 批 材料 于 40 年 代 末 被 运往 合 湾 。 杨 希 枚 (1985) 
对 这 些 颅骨 进行 了 研究 ,认为 它们 的 某 些 测量 项 目 和 颅骨 指数 变异 甚大 ,超出 了 同 种 系 
人 种 同类 项 目的 标准 差 。 鉴 于 祭祀 坑 颅 骨 的 成 分 可 能 比较 复杂 ,有 战争 的 俘虏 ,有 虏 获 
的 奴隶 , 杨 希 枚 提出 了 这 批 颅骨 代表 异种 系 群 体 的 观点 ,并 根据 颅骨 的 形态 进一步 把 它 
们 分 成 5 组。 第 一 组 代表 典型 的 蒙古 人 种 北 亚 类 型 。 第 二 组 与 现代 生活 在 大 洋 洲 的 美 
拉 尼 西 亚 人 和 巴布亚 人 相近 。 第 三 组 只 有 2 个 个 体 , 属 高 加 索 人 种 。 第 四 组 代表 蒙古 人 
种 北 亚 极 区 的 爱斯基摩 类 型 。 第 五 组 的 种 系 类 型 尚 待 研究 。 但 是 韩 康信 等 提出 了 不 同 
的 意见 ,他 们 虽 同 意 杨 希 枚 所 划分 的 第 一 组 颅骨 接近 蒙古 人 种 北 亚 类 型 ,但 认为 第 二 组 
属 蒙古 人 种 南亚 类 型 ,而 其 他 三 组 之 间 不 存在 显著 的 差别 , 均 为 蒙古 人 种 东亚 类 型 。 因 
此 昔 康 信 等 (1985) 反 对 异种 系 的 观点 ,认为 急 墟 祭祀 坑 出 土 的 颅骨 总 体 上 仍 属 纯 种 系 , 均 
属于 蒙古 大 人 种 系 。 韩 康信 等 还 对 解放 后 发 掘 的 颈 既 中 小 墓 出 土 的 颅骨 进行 了 测量 研 
究 。 殷 妹 中 小 幕 的 主人 应 属 身 商 的 自由 民 , 应 代表 筷 民 族 颅骨 的 特征 。 韩 等 的 研究 表 
明 ,中 小 慕 颅 骨 间 的 差异 不 大 ,应 属 蒙 古人 种 的 东亚 类 型 。 同 时 他 们 也 注意 到 中 小 医 颅 
骨 中 有 8 个 颅骨 具有 上 额 骨 间 偏 宽 和 颅 高 偏 低 等 北 亚 类 型 的 特征 , 韩 等 用 “ 殷 中 小 幕 ПЖ 
标识 这 8 具 带 有 北 亚 类 型 形态 的 颅骨 。 

为 了 鉴定 这 些 颅骨 间 ,包括 祭祀 坑 颅 骨 和 和 届 奔 中 小 医 颇 骨 的 种 族 关系 , 为 了 判断 笑 
墟 祭礼 坑 颅 骨 是 异种 系 的 还 是 纯 种 系 ,需要 对 中 小 墓 颅骨 与 祭礼 坑 颅 骨 的 之 间 的 各 项 测 
量 指标 ,对 它们 与 我 国 中 原 以 及 北 亚 地 区 各 时 段 的 颅骨 的 各 项 测量 指标 进行 对 比 研究 。 
Ж 14-7 列 出 了 22 组 人 群 的 21 项 颅 角 测量 指标 的 平均 值 。 

人 类 学 的 传统 方法 是 通过 很 多 个 单项 指标 间 的 比较 来 研究 人 群 间 的 种 系 关系 ,而 本 
书 的 作者 (1991) 曾 尝试 利用 多 元 分 析 方 法 中 的 育 类 分 析 和 主 成 分 分 析 对 表 14-7 的 数据 
进行 了 综合 的 研究 。 聚 类 分 析 的 结果 显示 在 图 14-6 和 图 14-7 两 张 树枝 状 聚 类 图 中 。 前 
者 用 欧 氏 距离 作为 相似 系数 和 均值 聚 类 方法 ,后 者 用 欧 氏 距离 平方 作为 相似 系数 和 Ward 
聚 类 方法 ,两 个 聚 类 过 程 都 是 首先 对 表 14-7 的 原始 数据 按 标 准 差 进行 了 标准 化 。 聚 类 是 
使 用 SPSS 软件 完成 的 。 
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CASE 0 1.5 .3 4.5 6 7.5 
Label Num 4--------- %--------- %--------- %--------- %--------- + 
爱斯基摩 I 14 
爱斯基摩 严 16 
楚 克 奇 滨河 I 17 
PAAIE 18 
爱斯基摩 工 15 
现代 蒙古 13 
ЖІГІ 21 
布 列 亚 1 19 
[еи І 1 
БНЛП 7 
BIEI 4 
БЕНЕТ 6 
ЖЕНУ 5 
жен 2 
现代 华南 12 
wH (EF) 10 
史前 华北 8 
现代 华北 11 
п B 9 
ЖӨНІ 3 
高 加 索 22 


图 14-6 ЕНЕЛ 22 组 颅骨 的 均值 聚 类 树枝 状 图 


在 图 14-6 上 , 取 育 合 水 平 大 于 6.5 时 ,22 组 人 群 可 分 为 3 组 。 第 一 组 包含 爱斯基摩 、 
楚 克 奇 、 布 列 亚 和 现代 蒙古 人 等 全 部 北 亚 类 型 的 人 群 ,但 专门 挑选 的 其 颅骨 形态 接近 北 
ТАНК ФЕН APDE I 也 进入 此 组 。 现 代 华 北 、 现 代 华 南 、 史 前 华北 、 古 代 的 
仰韶 、 柳 湾 、 以 及 除息 墟 除 夭 祀 坑 I 和 中 小 幕 II 外 的 其 他 有 拒 墟 颅骨 都 进入 第 二 组 ,显然 这 
一 组 代表 几 千 年 以 来 的 东亚 人 群 。 第 三 组 只 包括 高 加 索 人 一 个 组 。 如 果 将 作为 分 类 标 
准 的 聚合 水 平 降 低 为 4.5 左 右 ,那么 北 亚 人 群 又 可 进一步 分 成 :(1) 北 亚 极 地 爱斯基摩 和 
楚 克 奇人 ,(2) 典 型 蒙古 北 亚 类 型 的 布 列 亚 和 现代 蒙古 人 和 (3) 祭 礼 坑 [和 中 小 幕 工 等 三 
小 类 。 在 第 2 组 东亚 人 群 中 , 除 形 态 像 高 加 索 人 的 筷 直 祭祀 坑 II 颅骨 外 ,其 他 4 组 急 奸 
颅骨 均 合 在 一 起 。 因 此 由 图 14-6 可 清楚 地 看 到 , 按 21 项 颅骨 测量 数据 均值 聚 类 的 结果 
与 人 类 学 关于 欧 亚 人 种 种 系 的 知识 是 一 致 的 ,并 不 支持 股 厂 祭礼 坑 颅 骨 有 异种 系 的 观点 。 
[БЕЛЕ ЖЕЛЕ НО I AE HE 工 的 颅骨 下 面 将 进一步 讨论 外 , 股 娘 祭礼 十 和 中 小 董 的 其 
他 多 数 颅骨 的 形态 一 致 ,并 均 属于 蒙古 大 人 种 东亚 类 型 。 

均值 聚 类 的 分 析 结 论 基本 上 得 到 Wad 方法 聚 类 分 析 的 支持 。Ward 方法 聚 类 的 图 
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А 0 5 10 15 20 25 

Label Num %4--------- %--------- %--------- %--------- %--------- + 
爱斯基摩 1 14 
爱斯基摩 亚 16 
楚 克 奇 滨河 I 17 
ФАИЛ 18 
爱斯基摩 工 15 
现代 蒙古 13 
布 列 亚 工 20 
布 列 亚 亚 21 
布 列 亚 I 19 
ЖӨНІ 1 
ӘНМЕН 7 
ВЕЗУ 4 
ВМТ 6 
ВНУ 5 
ВП 2 
现代 华南 12 
仰韶 (合并 ) 10 
БЕН 

史前 华北 8 
现代 华北 11 
Шон 9 
AIR 22 


14-7 REREN Ş 2AA R Ward 方法 聚 类 树枝 状 图 


14-7 将 22 组 人 群 分 成 2 组 ,与 图 14-6 的 唯一 的 不 同 处 在 于 它 将 高 加 索 组 与 东亚 人 群 组 合 
并 为 一 组 。 但 只 要 降低 聚合 水 平 ,高 加 索 组 与 东亚 各 组 是 可 以 分 开 的 。 

本 书 第 十 七 章 将 介绍 主 成 分 分 析 方 法 ,这 里 我 们 给 出 这 22 组 颅骨 测量 数据 ( 表 14-7) 
的 主 成 分 分 析 结 果 。 它 们 用 两 张 主 成 分 散 点 图 表示 。 在 这 两 张 散 点 图 第 一 主 成 分 能 明确 
地 分 辨 东亚 和 北 亚 人 群 , 代 表 后 者 的 样品 点 均 处 于 图 的 右 半 部 分 ,其 第 一 主 成 分 值 均 为 
ИНЖЕНЕР 1 ЖЕН ДУ I 外 均 处 在 图 的 左 半 部 分 ,其 第 一 主 成 分 值 均 
HHE. АТАМАН Фе ГӘН ЖР БОЛАР Ж Я АЈ ЖЕЛІ ЖЗ МЕ ПІЛ 
骨 , 虽 在 这 两 张 图 中 其 样品 点 位 置 偏 右 ,第 一 主 成 分 值 为 正 , 但 其 绝对 值 很 小 , 离 代表 真 
正 的 北 亚 人 群 的 诸 点 有 相当 的 距离 。 考 虑 到 同 种 系 人 群 中 的 个 体 差异 和 颇 骨 各 项 指标 
本 身 的 涨 落 , 悉 墟 祭祀 坑 I 和 中 小 医 ПАУЕЛА РЖ ЛЯ, EMEREK ERR 
骨 是 属于 同一 种 系 的 。 在 图 14-9 可 看 到 高 加 索 组 与 其 他 21 组 人 群 在 第 三 主 成 分 上 是 有 
显著 差别 的 。 主 成 分 分 析 能 揭示 原始 数据 的 变量 对 各 个 主 成 分 的 贡献 。 高 加 索 人 上 额 宽 
和 鼻 宽 狭 以 及 颅 高 较 低 的 特征 导致 其 第 三 主 成 分 值 小 ,为 负 值 。 即 综合 考虑 前 三 个 主 成 
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分 , 则 东亚 、. 北 亚 和 高 加 索 三 种 类 型 的 人 群 能 清楚 地 区 分 开 ,与 均值 聚 类 的 结果 一 致 。 

总 之 , 聚 类 分 析 和 主 成 分 分 析 两 种 多 元 方法 对 22 组 颅骨 21 项 测量 指标 的 研究 结论 
是 相互 印证 ,相互 补充 的 ,并 支持 韩 康信 等 关于 有 拒 墟 祭祀 坑 鼎 骨 属 纯 种 系 的 观点 。 多 元 
分 析 的 研究 结论 比 人 类 学 研究 中 传统 的 通过 多 个 单项 指标 间 比 较 研 究 给 出 的 结论 更 直 
观 ,更 简明 。 因 为 后 者 是 一 系列 单项 研究 结果 的 表述 ,而 前 者 是 研究 结果 的 综合 表述 。 
同时 这 个 研究 实例 也 显示 了 同时 使 用 两 种 或 两 种 以 上 多 元 分 析 方 法 对 实体 正确 分 类 的 


重要 性 。 


主 成 分 (16.7%) 


第 二 


.0 
-2.0 -1.0 0.0 1.0 2.0 
第 一 主 成 分 (43.2%) 
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14-9 ВЕ Б 2 组 颅骨 的 第 一 和 第 三 主 成 分 散 点 图 
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14.6 单元 等 级 分 划 


如 果 说 聚 类 分 析 是 将 实体 或 实体 群 逐步 两 两 聚合 的 综合 过 程 ,那么 等 级 分 划 是 将 全 
部 实体 逐步 分 划 的 分 解 过 程 。 等 级 分 划 是 根据 一 定 准则 将 全 部 个 实体 划分 成 2 组 , 然 
后 再 对 其 中 的 每 一 组 再 一 分 为 二 ,这 样 重复 进行 ,直到 可 以 认为 已 分 划 的 各 子 组 内 的 实 
体 已 经 是 同 质 的 ,不 需要 再 进一步 分 划 。 如 果 主 要 根据 单个 变量 的 取 值 作为 划分 的 准 
Ж , 称 为 单元 的 分 划 ,当然 也 要 考虑 该 变量 与 其 他 变量 间 的 关系 。 本 节 仅 讨论 单元 分 划 ， 
而 且 变 量 属于 二 元 变量 的 情况 ,下 面 将 通过 一 个 实例 来 讨论 。 

假设 有 8 个 幕 莫 ,其 中 观察 到 有 A 一 F 等 6 种 器 物 , 表 14-8 是 原始 数据 统计 表 , 统 计 
了 这 些 器 物 在 墓葬 中 的 分 布 ,“1” 表 示 存 在 ,“0” 为 缺失 。 任 务 是 要 根据 器 物 的 分 布 对 8 座 
墓葬 进行 分 组 。 单 元 分 划 的 第 一 步 是 要 在 A 一 F 等 6 种 器 物 中 确定 一 种 有 分 类 意义 的 器 
物 ,根据 它 的 存在 与 否 将 墓葬 群 分 成 2 组 。 这 种 具有 分 类 意义 的 变量 在 生物 分 类 学 中 称 
为 临界 种 。 


表 14-8 A 一 F 等 6 种 器 物 在 8 个 慕 葬 中 的 分 布 , “1” 表示 被 发 现 ,"0”" 为 未 被 发 现 
墓 号 A 
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14.6.1 分 类 变量 的 确定 


有 多 种 方法 或 准则 来 确定 分 类 变量 ,最 常用 的 方法 是 利用 关联 系数 和 信息 系数 ,后 
者 要 求 分 组 后 信息 量 的 减少 最 大 。 这 里 不 准备 讨论 怎样 定义 一 组 数据 的 信息 量 ,以 及 分 
组 和 并 组 过 程 中 信息 量 是 怎样 改变 的 等 , 即 不 讨论 怎样 用 信息 系数 来 确定 分 类 变量 。 本 
节 仅 介绍 怎样 利用 关联 系数 来 确定 分 类 变量 。 

在 诸 变量 中 ,应 该 选择 与 其 他 的 变量 之 间 关 联 最 强 的 变量 作为 分 类 变量 ,这样 当 以 
它 的 存在 与 否 来 分 组 时 ,其 他 变量 也 已 经 尽 可 能 充分 地 被 考虑 了 。 可 以 利用 第 十 章 公式 


、 n(ad - ы) я М 
(10-3) 和 定义 的 х? = (а + 7916) + 4ў(а + ИЕ + 4) 值 来 检验 变量 之 间 是 否 关联 ,用 公 


， 2 А 
55 (10-4) жх #2 = ^- 来 度量 变量 之 间 的 关联 强度 。 为 了 确定 分 类 变量 ,首先 需要 计算 
п 


6 个 变量 两 两 之 间 的 x? 值 和 如 值 ,各 有 15 个 ,为 此 写 出 8 个 实体 对 于 变量 А,В 分 布 的 2 
х2 IRR: 
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B B 

状态 存在 未 见 
А 存在 1 1 
А 未 见 3 3 


ТИ? Жж 8х(1х3-1х3)? _ 0 后 
可 以 计算 得 到 A,B 两 变量 间 的 v E: ав = (1 + 1) x (1 + 3) x (1 + 3) x (3 + 3) = 06 同样 
对 于 变量 A,C 有 


C C 

А 状态 存在 未 见 
А 存在 0 2 
ЖА, 5 1 


лад 8х (0х1 -2х 5)? 
HAIE yic = тоу (21) х (0.5) Ga 444° 


用 同样 方法 可 以 计算 得 到 yio = 0.889, уде = 4.444, yár = 1.600…… ур = 2.880 等 共 


15 15 Е.Я 9%, - Xs = 0,#%с = xác = 0.566, фк = х = 0.360 等 共有 
15 个 如 值 。 第 十 章 曾 说 明 如 的 取 值 范围 是 在 0 与 1 之 间 , 这 里 再 规定 :每 个 变量 自身 的 关 
联 强度 PEN $y = 1。 | 

下 一 步 是 在 一 定 的 显著 性 水 平 下 检验 变量 之 间 的 关联 是 否 显著 。 因 为 是 2x 2 的 列 
联 表 ,自由 度 为 1, 对 应 于 0,15, 0.10 和 0.05 显著 性 水 平 的 x? 的 临界 值 相应 为 2.07， 
2.706 #1 3.841. ЕЖ о = 0.15, MEE J] 5 K ZER ук < 2.07 ,那么 在 X=0.15 的 
显著 性 水 平 下 变量 J 与 K 之 间 的 关联 没有 统计 意义 , 可 以 不 必 去 考虑 , 即 认为 相应 的 
Фк = 0。 这 样 可 以 对 所 有 的 Фук 值 列 出 一 个 6x6 的 矩阵 ,我 们 用 表格 的 形式 列 出 如 下 : 


A B C р Е F 
A 1 0 0.556 0 0.556 0 
В 0 1 0 0.333 0 0.6 
С 0.556 0 1 0 0 0 
р 0 0.333 0 1 0 0 
Е 0.556 0 0 0 1 0.36 
Е 0 0 0 0 0.36 1 
ШЕ: Si 2.112 1.333 1.556 1.333 1.916 1.96 


上 面 表格 的 最 后 一 行 是 各 列 数值 的 和 ,是 每 个 变量 与 所 有 6 个 变量 (包括 自身 ) 的 关联 强 
度 的 总 和 $i。 应 该 选择 5 最 大 的 那个 变量 作为 分 类 变量 ,因为 在 6 个 变量 中 它 与 其 他 的 
变量 之 间 的 关联 最 强 。 在 本 实例 中 第 一 列 的 列 和 最 大 ,为 2.112, 因此 应 该 选 第 一 个 变 
量 , 即 A 型 器 物 作 为 分 类 变量 。 

需要 说 明 一 种 特殊 情况 ,如 果 在 表 14-8 中 有 某 个 变量 , 它 对 于 8 个 实体 的 取 值 全 是 1 
或 全 是 0( 某 种 器物 在 8 座 中 全 出 现 或 全 缺失 ) ,那么 这 个 变量 与 别 的 变量 间 的 关联 系数 
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是 无 法 计算 的 ,可 以 规定 它 和 其 他 变量 间 的 关联 系数 为 0。 实际 上 这 类 变量 在 分 类 中 是 
不 起 作用 的 ,可 以 将 其 剔除 。 


14.6.2 分 划 过 程 


(一 ) 第 一 次 分 划 的 结果 。 

对 表 14-8 的 8 个 实体 按 变量 A 取 值 为 1 和 0 划分 ,将 分 成 2 组 ,第 一 分 组 包含 1,2， 
3,5,6,7 等 6 个 实体 ,它们 的 第 一 个 变量 ,变量 A 的 取 值 都 是 1; 第 二 分 组 由 实体 4 和 8 组 
成 ,都 是 A 为 0 的 实体 。 表 14-9 列 出 第 一 分 组 的 数据 。 


表 14-9 B-F 等 $5 种 器 物 在 A=1 的 6 个 茵 葬 中 的 分 布 


墓 号 B C D Е Е 
1 1 0 1 0 1 
2 0 1 1 0 0 
3 0 0 1 0 0 
5 1 0 1 1 1 
6 0 0 1 0 0 
7 1 0 0 0 1 


下 面 对 第 一 分 组 中 的 6 个 实体 进一步 分 组 。 需 要 从 B-F 等 5 个 变量 中 再 选择 一 个 分 
类 变量 。 同 样 方法 先 计 算 各 变量 之 间 的 x? 值 ,计算 结果 只 有 B 与 耻 间 的 Yar = 6 > 
2.07 ,其 他 的 ук 值 均 小 于 2.07, 相 应 的 #3x 值 均 应 为 0。 这 样 5 x 5 的 Фк ЕЕЕ: 


= О б о 


Е 
ШЕ! бі 


ноо о о ыу 
一 Фоно оо м 
y=- ос Om. ы 


B 
1 
0 
0 
0 
1 
2 


= ооо н о (Су 


由 这 个 矩阵 数据 可 知 , 应 选择 变量 B 或 为 分 类 变量 ,从 表 14-9 可 见 这 两 个 变量 之 
间 是 完全 的 关联 ,选择 其 中 的 任意 一 个 是 等 效 的 。 

(二 ) 第 二 次 划分 的 结果 与 讨论 。 

按照 变量 B 的 取 值 ,第 一 分 组 的 6 个 实体 又 进一步 分 成 2 组 ,实体 1,5,7 为 一 组 , 它 
I B = F = 1; B = F = 0 的 实体 2,3,6 被 划分 为 男 一 组 。 

经 过 2 次 分 划 ,8 个 墓葬 分 成 3 个 分 组 。 对 于 每 个 分 组 需要 继续 计算 变量 间 的 y? 
值 ,分 析 是 否 需 要 进一步 地 划分 。 实 际 计算 得 到 的 x? 值 均 小 于 2.07, 说 明 不 需要 对 这 3 个 
分 组 再 作 划 分 ,每 个 分 组 中 的 实体 可 以 认为 是 同 质 的 了 。 变 量 间 у? 值 的 统计 检验 为 分 划 
过 程 提供 了 一 个 实际 上 的 终止 规则 , 当 所 有 的 x? 值 统计 上 不 显著 时 ,分 划 过 程 也 就 停止 
了 。 

整个 分 划 过 程 的 结果 可 以 用 树枝 状 图 14-10 来 总 结 ,图 中 从 上 而 下 记录 了 2 次 分 划 
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按 器 物 A 
第 一 次 分 划 


И В 
第 二 次 分 划 


1 5 7 2 3 6 4 8 жЕ 
图 14-10 ИНЕМ ЛАК Е АЗЕКЕ 
所 依据 的 变量 (器 物 ) 名 称 。 在 底线 上 标明 了 每 一 组 的 实体 编号 。 水 平 的 分 划 线 的 高 低 


应 与 每 次 分 划 的 水 平 , 即 P 的 列 和 值 相 当 。 
对 原始 数据 表 14-8 ,按照 分 划 结 果 对 实体 重新 排列 整理 ,得 到 表 14-8a。 


Ж 14-8a A-F 等 6 种 器 物 在 8 个 蔓 藉 中 的 分 布 , 蔓 苦 已 按 分 划 结 果 分 组 排列 
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ІНЕ 14-8a 可 见 ,第 一 组 1,5,7 = ААИ A,B,C, F 是 同 质 的 , 即 这 4 个 器 
物 变量 对 该 组 的 3 个 实体 取 值 均 为 1 或 均 为 0。 第 二 组 2,3,6 三 个 墓葬 对 于 总 共 6 种 器 
物 中 的 5 种 是 同 质 的 , 仅 对 于 器 物 C 不 同 质 , 同 质 的 比例 高 达 84% 。 第 三 组 2 个 墓葬 对 4 
种 器 物 同 质 。 高 的 同 质 比例 说 明 上 面 进行 的 分 划 是 有 效 的 。 

上 述 墓 莫 群 根据 是 否 含有 某 种 分 类 意义 器 物 作 单元 分 划 ,与 传统 的 考古 研究 中 根据 
典型 器 物 对 摹 葬 的 分 类 或 分 期 相 比 较 ,它们 在 思维 逻辑 上 颇 为 相似 。 分 析 计 算 一 个 墓葬 
群 中 器 物 间 的 关联 强度 与 传统 的 考古 研究 中 寻找 墓 莫 中 较为 国定 的 器 物 组 合 ,它们 在 研 
究 目 标 上 也 很 接近 。 因 此 ,单元 划分 方法 在 考古 研究 的 墓葬 分 期 中 应 该 有 应 用 的 前 景 。 

单元 分 划 方 法 的 应 用 也 受到 一 定 程度 的 质疑 ,主要 的 问题 是 应 该 怎样 对 待 (0,0) 匹 
` 配 。 这 在 14.3 节 介 绍 Jaccard 匹配 系数 时 已 提 及 。 国 外 的 一 些 文献 中 比较 提倡 用 信息 系 
数 来 确定 单元 分 划 中 的 分 类 变量 ,但 信息 系数 的 计算 工作 量 可 能 稍 大 。 

总 之 ,无 论 是 等 级 聚 类 或 等 级 分 划 在 考古 实体 的 分 类 研究 中 都 有 应 用 前 景 , 但 同时 
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其 本 身 也 有 一 系列 问题 需要 进一步 探索 。 


14.7 非 等 级 的 均值 分 类 方法 


14.7.1 均值 分 类 方法 的 原理 和 执行 过 程 


K 均值 分 类 方法 是 一 种 非 等 级 的 分 类 方法 , 它 的 英文 名 称 是 K-means 分 类 方法 。 假 
设 有 个 实体 ,每 个 实体 被 m 个 变量 所 描述 ,如 表 14-1 所 示 , 需 要 用 均值 方法 对 实体 
进行 分 类 。K 均值 分 类 方法 首先 需要 对 原始 数据 作 标准 化 处 理 , 具 体 分 类 过 程 大 致 有 下 
ЖІ Ж: 

(1) 首先 要 确定 对 实体 群 分 成 几 组 ,这 要 依据 对 实体 群 全 部 测量 数据 的 已 有 的 知识 
来 确定 。 当 然 如 果 第 一 次 的 分 类 结果 被 认为 不 合适 ,可 以 重新 规定 分 组 数目 再 行 分 类 。 

(2) 确定 初始 类 中 心 。 在 确定 分 类 的 数目 后 (譬如 说 分 成 类 ), 还 要 指定 各 个 类 中 
心 的 坐标 值 , 称 为 初始 类 中 心中 个 初始 类 中 心 可 以 由 研究 人 员 给 定 , 也 可 以 由 计算 机 自 
动 生成 。 计 算 机 一 般 选 择 天 个 实体 的 坐标 值 作为 类 中 心 ,并 在 选择 时 考虑 它们 之 间 的 距 
离 应 适当 拉 开 。 

(3) 归 类 或 分 派 。 无 论 是 每 个 实体 ,或 者 是 类 中 心 都 是 т 维 空间 中 的 一 个 点 ,从 而 
可 以 计算 点 与 点 之 间 的 距离 ,一 般 用 数据 标准 化 后 的 欧 氏 距 离 。 归 类 或 分 派 是 将 实体 一 
一 归 到 与 自己 距离 最 短 的 类 中 心 所 在 的 类 中 ,完成 了 第 一 次 分 类 。 归 类 程序 也 有 两 种 ， 
一 是 归 类 过 程 不 改变 原来 的 类 中 心 的 位 置 ,二 是 当 一 个 实体 归 到 某 类 后 重新 计算 该 类 中 
心 的 位 置 作 为 该 类 实体 新 的 中 心 。 后 一 种 方法 称 为 使 用 running means 归 类 ,计算 量 相应 
会 大 些 。 

(4) 迭代 和 和 迭代 终止 规则 。 完 成 第 一 次 的 归 类 后 重新 计算 各 类 的 中 心 值 ,然后 再 将 
每 个 实体 一 一 归 到 与 自己 距离 最 短 的 新 的 类 中 心 所 在 的 类 中 ,完成 了 一 次 迭代 过 程 。 反 
复 地 迭代 计算 ,直到 完成 事先 规定 的 迭代 次 数 或 者 满足 规定 的 选 代 收 敛 标 准 。 所 谓 收 敛 
标准 可 以 这 样 规定 , 壁 如 要 求 二 次 迭代 前 后 个 类 中 心 距离 改变 的 最 大 值 不 大 于 初始 类 
中 心间 最 短 距离 的 百 分 之 一 。 当 然 , 如 果 前 后 两 次 迭代 计算 的 结果 不 改变 实体 的 分 类 ， 
和 迭代 过 程 也 就 自然 停止 了 。 和 迭代 过 程 收敛 的 快慢 与 分 类 数目 的 设 定 ,与 初始 类 中 心 位 置 
的 选择 是 否 合适 有 关 。 

(5) 分 类 结果 的 分 析 。 在 分 类 过 程 结束 , 各 实体 的 归属 确定 后 ,当然 首先 会 观察 分 类 
的 结果 是 否 与 预期 相符 ,是 否 需 要 改变 分 类 的 类 数 ,或 重新 指定 初始 类 中 心 的 位 置 后 ,再 
重新 分 类 。 此 外 还 可 以 计算 最 终 类 中 心 之 间 的 距离 ,以 便 分 析 哪 些 类 之 间 关 系 接近 , 哪 
些 类 之 闻 关 系 疏 远 。 也 可 以 对 变量 作 一 元 方差 分 析 ,观察 各 变量 在 当前 分 类 中 的 作用 。 
有 时 会 发 现 某 些 变量 在 当前 的 分 类 中 不 起 多 大 作用 ,排除 掉 这 类 变量 ,也 许 能 使 分 类 结 
果 与 预期 结果 相符 更 理想 。 


14.7.2 均值 分 类 方法 应 用 实例 
本 章 前 面 14.5 节 曾 用 等 级 聚 类 对 筷 超 颅骨 进行 了 分 类 研究 ,其 基础 数据 是 表 14-7 
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所 列 22 组 颅骨 的 21 项 颅骨 测量 数据 。 图 14-6 显示 了 均值 聚 类 的 结果 。22 组 颅骨 分 为 3 
Яя. 第 1 组 包含 爱斯基摩 , 楚 克 奇 , 布 列 亚 和 现代 紫 古 人 等 全 部 北 亚 类 型 的 人 群 , 但 专门 
За ВЛ АЕ ИЕЛІ ЛІ МЕ 开 也 进入 此 组 。 第 2 组 由 除 祭 
祀 坑 I 和 中 小 募 开 外 的 其 他 筷 娘 颅骨 和 其 他 东亚 类 型 颅骨 组 成 。 第 3 组 只 包括 高 加 索 人 
一 个 组 。 现 用 SPSS Е К 均值 分 类 程序 对 22 组 颅骨 进行 分 类 , 也 要 求 把 它们 分 成 3 
组 或 3 类 。 数 据 按 标准 差 标准 化 ,初始 类 中 心 由 计算 机 指定 ,和 迭代 过 程 中 采用 running 
means 方法 。K 均值 分 类 程序 的 实际 执行 在 经 过 18 次 和 迭代 后 停止 。 其 分 类 结果 由 表 14-9 
所 示 ,可 见 与 上 述 均值 聚 类 的 结果 完全 一 致 。9 ДЕЗЕ Ж РИНЕ ЕЛЕ &1Е Т 
Фл ПЖ 1 类 ,高加索 类 型 颅骨 为 第 2 类 ,全 部 东亚 类 型 颅骨 包括 除 夭 祀 坑 1 和 中 小 
A 外 的 其 他 拒 墟 颅骨 为 第 3 类 。 说 明 分 类 结果 是 比较 稳定 的 , 聚 类 分 析 、 主 成 分 分 析 
和 KK 均值 分 类 给 出 相同 的 分 类 结果 。 

SPSS 的 均值 分 类 程序 的 输出 除 给 出 最 终 的 分 类 结果 外 ,还 给 出 每 个 实体 到 最 终 类 
中 心 的 距离 ,初始 和 最 终 类 中 心 的 坐标 值 ,18 次 迭代 过 程 中 每 次 类 中 心 位 置 的 变化 量 ,每 
个 变量 的 一 元 方差 分 析 表 ,最 终 类 中 心 之 间 的 距离 等 信息 。 鉴 于 篇 幅 , 这 里 我 们 仅 列 出 
实体 分 类 结果 和 实体 离 最 终 类 中 心 的 距离 表 ( 表 14-9) 和 最 终 类 中 心 之 间 的 距离 表 ( 表 
14-10), 


#149 均值 法 对 22 组 颅骨 的 分 类 结果 和 实体 离 分 类 中 心 的 距离 


颅骨 编号 颅骨 名 称 分 类 距离 
1 ВЛЕН І 1 3.473 
2 ВЕ П 3 3.197 
3 ВАЛЕ Ш 3 4.939 
4 ЖЕУ 3 1.770 
5 BREV 3 2.668 
6 ЖЕН ЛӘ I 3 1.949 
7 ВЛЕ П 1 4.518 
8 史前 华北 3 3.457 
9 ж B 3 4.577 
10 仰韶 (合并 ) 3 4.504 
11 现代 华北 3 4.197 
12 现代 华南 3 3.622 
13 现代 蒙古 1 2.982 
14 爱斯基摩 东南 I 1 2.887 
15 爱斯基摩 那 俄 康 П 1 3.877 
16 爱斯基摩 近代 亚 1 2.777 
17 楚 克 奇 滨河 I 1 2.593 
18 楚 克 奇 驯鹿 工 1 2.889 
19 布 利 亚 西 I 1 1.986 
20 HAER П 1 3.019 
21 布 利 亚 外 贝加尔 亚 1 4.644 
22 АШ 2 0.000 
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从 上 表 看 到 ,高 加 索 组 颅骨 单独 分 为 一 类 ,实体 到 类 中 心 的 距离 当然 是 0, 般 祭礼 二 
I 和 和 恋 中 小 墓 工 虽 分 在 北 亚 类 ,但 相对 而 言 它们 离 北 亚 组 类 中 心 的 距离 较 远 。 
表 14-10 最 终 类 中 心间 的 距离 


分 类 北 亚 组 高 加 索 组 东亚 组 3 
北 亚 组 6.564 5.420 
高 加 索 组 6.564 6.272 
东亚 组 5.420 6.272 


# 14-10 显示 , (1) 三 个 类 中 心 相互 间 的 距离 大 于 各 组 颅 肯 到 各 自 类 中 心 的 距离 和 
(2) 相 对 而 言 , 北 亚 和 东亚 类 中 心间 的 距离 小 于 它们 各 自 到 高 加 索 组 类 中 心 的 距离 。 

变量 的 一 元 方差 分 析 表 明 在 21 项 颅骨 测量 指数 中 , 鼻 根 点 角 , 面 角 , 颅 宽 指数 , 鼻 
宽 , 眶 宽 , 鼻 指数 对 分 类 的 影响 相对 较 小 。 这 里 一 元 方差 分 析 中 的 组 间 均 方差 和 组 内 均 
方差 之 比 , 仅 给 出 相应 变量 在 分 类 中 作用 的 大 小 ,而 没有 统计 学 中 用 于 显著 性 检验 的 意 
义 。 

最 后 需要 说 明 ,上面 的 分 类 过 程 选择 了 running means 方法 。 如 果 在 实体 的 迭代 归 类 
过 程 中 不 改变 类 中 心 的 位 置 ,那么 在 上 面 的 例子 中 , 仅 经 过 3 次 和 迭代 后 数据 就 收 剑 了 。 
得 到 的 分 类 结果 也 不 完全 相同 ,与 4.5 节 等 级 聚 类 的 结果 有 差别 。 


4.8 模糊 聚 类 简单 介绍 * 


在 根据 古 资 的 化 学 组 成 对 其 产地 的 淹 源 研究 中 ,我 国有 的 研究 者 使 用 模糊 聚 类 方法 
( 见 苗 建 民 等 [1993] 和 李 国 霞 等 [2002]) 。 而 模糊 聚 类 与 本 章 14.4 介绍 的 等 级 聚 类 或 系 
统 聚 类 在 聚 类 思路 方面 有 较 大 的 差异 。 因 此 这 里 对 模糊 聚 类 作 简 要 地 介绍 。 

模糊 聚 类 属于 模糊 数学 内 容 。 自 1965 年 美国 加 州 大 学 的 工 .A.Zadeh 首先 提出 模糊 
集合 的 概念 以 来 ,模糊 数学 已 发 展 为 数学 的 一 个 重要 分 支 。 模 糊 数 学 是 处 理 自然 界 和 人 
类 社会 中 大 量 难以 用 精确 的 数值 变量 描述 的 现象 。 例 如 一 个 篮球 运动 员 出 手 投 艇 ,我 们 
不 用 也 不 可 能 测量 球 的 速度 和 角度 ,目测 就 能 以 很 高 的 概率 正确 预测 球 能 否 进入 篮 框 。 
这 类 现象 称 为 模糊 现象 。 

模糊 聚 类 也 是 对 样本 中 的 实体 进行 分 类 的 过 程 ,但 它 是 通过 实体 间 的 模糊 关系 来 进 
行 聚 类 的 。 下 面 通 过 一 个 简单 的 实例 来 说 明 模 糊 聚 类 的 过 程 ,该 例子 引用 自 楼 世博 等 编 
著 的 《模糊 数学 》(1983 ) 。 

假设 有 5 个 实体 (x1,x2,%x3,x4,xs,), 并 且 已 经 建立 了 它们 之 间 相 似 系数 矩阵 
(14-21)。 


К, = ` ` (14-21) 
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Ri 中 的 相似 系数 可 以 是 根据 描述 实体 的 数值 变量 计算 而 得 的 ,例如 使 用 两 个 实体 向 量 的 夹 
角 的 余弦 ,也 可 以 是 根据 模糊 认识 估计 的 。 但 是 规定 相似 系数 在 0 与 1 变动 。 在 模糊 数学 中 把 
相似 系数 看 作 是 两 个 实体 x: 和 % 间 的 模糊 关系 wa (zxi,%) ,如果 模糊 关系 十 分 密切 , 则 
pr (жау) 接近 1, 反之 , 则 接近 0。 相似 系数 矩阵 Ri 在 模糊 数学 中 相应 称 为 模糊 关系 矩阵 。 


对 于 矩阵 的 元 素 ， 
щі = 了 时 ， HR, (xi,%) = 1 (14-22) 
即 主 对 角 线 上 的 元 素 等 于 1。 说 明 每 个 实体 自己 对 自己 的 关系 最 接近 ,这 称 为 模糊 关系 
的 自 返 性 。 此 外 对 于 R 的 元 素 显然 还 存在 对 称 性 关系 , 即 有 
ив, (ж, у) = рв, Са к) (14-23) 
因为 模糊 关系 矩阵 R 具有 自 返 性 和 对 称 性 , R 又 称 为 模糊 相 容 矩阵 。 
直接 利用 模糊 相 容 抢 阵 是 不 能 进行 实体 聚 类 的 ,因为 这 个 矩阵 的 模糊 关系 间 不 存在 
传递 性 。 模 糊 关 系 的 传递 性 要 求 , 如 果 甲 与 乙 聚 一 类 和 乙 与 丙 聚 一 类 ,那么 甲 与 两 也 应 
该 是 一 类 的 。 对 于 公式 (14-21) 所 示 的 模糊 相 容 矩阵 这 种 关系 并 不 成 立 。 例 如 规定 К, 
中 模糊 关系 大 于 等 于 0.8 的 实体 聚 一 类 ,那么 (xi,xa) 和 (sa ,xs) 聚 为 一 类 ,因为 ик (э, 
ж) = 0.8 > 0.8 各 АСД = 0.9 > 0.8。 考 虑 到 关系 的 传递 性 ,xi; 和 xs 也 应 该 属于 
同一 类 的 。 但 是 实际 上 pa (xs) = 0.4 < 0.8,xl 和 xs 并 不 属于 同一 类 。 这 样 就 产生 了 
Яя. ЕЖ 14.4 节 一 般 的 聚 类 过 程 中 ,我 们 也 不 是 直接 由 相关 系数 抢 阵 完成 聚 类 的 ， 
而 是 通过 简单 连接 聚 类 ,或 均值 聚 类 等 方法 来 完成 聚 类 过 程 的 。 
在 模糊 数学 中 是 通过 将 R 反映 的 模糊 相 容 关系 ,转化 为 模糊 等 价 关系 来 完成 聚 类 
过 程 的 。 转 化 的 关键 在 于 , 在 计算 x; 和 %; 的 关系 时 ,不 仅 考 虑 它们 之 间 的 直接 关系 ,也 要 
同时 考虑 x; 和 % 与 其 他 实体 的 间接 关系 。 这 个 转化 是 通过 模糊 关系 矩阵 的 相 乘 А, = R° 
R 来 实现 的 。“。” 表 示 两 个 模糊 矩阵 相 乘 ,这 里 我 们 不 拟 写 出 模糊 矩阵 相 乘 的 一 般 公式 ， 
而 直接 写 出 二 级 模糊 矩阵 К, 的 结果 ,并 略 作 说 明 。 
1 0.8 0.4 0.2 0.8 
0.8 1 0.4 0.5 0.9 
R, = |0.4 0.4 1 0 0.4 
0.2 0.5 0 1 0.5 
0.8 0.8 0.4 0.5 1 
下 面 给 出 计算 Rs 的 第 一 行 第 三 列 元 素 ur (x1,x3) 的 过 程 , 说 明 为 什么 它 等 于 0.4。 
在 Ri 中 х 和 x; 之 间 存 在 5 对 模糊 关系 系数 ,其 中 有 x) 和 ху 之 间 的 直接 关系 ,也 有 通过 
其 他 实体 的 间接 关系 。 从 每 对 关系 的 2 个 关系 系数 中 选择 数值 小 的 系数 。 它 们 分 别 是 


i = 1-- minl йк, (ху,х\), pr (жу, хз) ] = min(1,0) = 0 


{ = 2 一 min[ ør 《xl1，x2)， AR《X2， x3)] = min(0.8,0.4) = 0.4 
і = 3 一 min[ pa (x1,%3), ив (яз,43)І = min(0,1) = 0 


і = 4 一 min[ ик (ал, ж) › ив (4,93) ] = тіп(0.1,0) = 0 


і = 5-- min[ ир (21525), ив (хз, %3)] = тіп(0.2,0) = 0 
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然后 从 这 5 个 数 中 选择 最 大 的 ,得 到 шах (0, 0.4, 0, 0, 0) =0.4。 用 同样 的 方法 计 
Я к, 的 所 有 元 素 。 不 难 证 明 К, 的 每 个 元 素 都 大 于 或 等 于 R 的 相应 的 元 素 , 即 有 
KR (Xi, Ху) 之 AR Caisa) (14-24а) 
接着 还 可 以 继续 计算 Rs = R,* Ra( Rs 诸 元 素 的 数值 不 列 出 ) 和 计算 R, 

1 0.8 0.4 0.5 0.8 
0.8 1 0.4 0.5 0.9 
R, = В, ° В, = |0.4 0.4 1 0.4 0.4 
0.5 0.5 0.4 1 0.5 
0.8 0.9 0.4 0.5 1 
公式 (14-24a) 可 以 推广 到 一 般 情况 , 即 有 对 于 任何 的 m < n - 1, 有 

Истад) C Xis X) Œ HRn Kis ху) (14-24b) 
另外 ,还 可 以 证 明 :(1) 如 果 R 是 (пхп) 的 矩阵 ,mn 为 样本 中 实体 的 数目 ,那么 当 
m= (п- DEF, 


ива-у (6) = ТАЛ. = MRCn+ C Xis Xi) (14-25) 

式 中 上 天 为 任意 的 正 整数 。 即 (mn - 1) 级 模糊 相 容 矩阵 К, 1 的 平方 就 等 于 R,_1 自 己 。(2) 
Р, 1 不 仅 保 留 自 返 性 和 对 称 性 ,而且 必然 具有 传递 性 。 因 此 Е, 1 反映 模糊 等 价 关系 ,是 
模糊 等 价 窍 阵 。 这 样 可 以 直接 使 用 R, N Ж {Ж ЖЖ, 

在 上 面 的 例子 中 ,共有 5 个 实体 , n = 5 ,因此 R 已 是 模糊 等 价 和 矩阵 TERATE 
类 。 定 义 0< 1 <1, 对 于 样本 中 的 任意 两 个 实体 x; а, RE praleis) о А.а Ma AÈ 
聚 为 一 类 。 . 

如 果 选 = 0.9, 那么 (xs,xs) 聚 类 ,其 他 实体 各 自 为 类 ,实体 分 成 4 类 。 

如 果 选 = 0.8, 那么 (xi,xa,x5) 聚 类 ,其 他 实体 各 自 为 类 ,实体 分 成 3 类 。 

如 果 选 = 0.5, ЯҒ 2(х1,х2,х4, as) 聚 类 ,实体 х 自 成 为 一 类 ,实体 分 成 2 类 。 

如 果 选 4 = 0.4, 那么 所 有 的 实体 均 聚 合 为 一 类 。 

可 见 聚 类 的 组 数 取决 于 4 值 的 选择 。 模糊 聚 类 的 结果 也 可 以 用 树枝 状 聚 类 图 来 表 
示 , 如 图 14-11 所 示 。 

入 
09 


0.8 


Хз х, хү X2 Xs 


4-1 模糊 聚 类 结果 的 树枝 状 图 
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从 上 面 的 讨论 可 见 ,对 比 模糊 聚 类 和 14.4 介绍 的 等 级 聚 类 ,两 者 的 聚 类 策略 是 不 同 
的 ,后 者 是 一 个 逐步 聚 类 的 过 程 。 在 14.4.3 节 中 ,我 们 曾 指出 等 级 聚 类 的 一 个 缺点 , 即 后 
面 的 聚 类 过 程 会 受到 前 面 聚 类 实体 的 影响 ,如果 某 个 实体 因为 某 种 偶然 因素 被 错误 地 分 
到 某 一 组 ,那么 这 个 错误 会 自始至终 地 影响 后 面 的 聚 类 过 程 , 有 时 会 导致 严重 的 后 果 。 
模糊 聚 类 是 可 以 避免 这 类 问题 的 ,因为 它 从 开始 就 考虑 了 其 他 实体 对 每 一 对 实体 间 关 系 
的 间接 影响 。 等 级 聚 类 的 另 一 重要 缺点 是 不 能 显示 原始 变量 对 分 类 结果 的 作用 ,模糊 聚 
类 并 不 能 免除 这 个 缺点 。 

目前 我 国学 者 应 用 模糊 聚 类 于 痪 器 的 产地 溯源 研究 ,但 是 瓷器 的 化 学 组 成 是 一 些 直 
接 测 量 、 相 对 精确 的 数值 变量 。 考 古 器 物 的 形态 描述 包含 一 系列 模糊 变量 ,应 用 模糊 聚 
类 于 器 物 的 分 型 定式 也 许 是 值得 尝试 的 。 可 惜 文献 中 未 见 到 这 方面 的 研究 ,可 能 是 因为 
模糊 分 析 的 软件 还 没有 像 多 元 统计 分 析 的 软件 那样 普及 。 

模糊 数学 中 还 发 展 了 所 谓 “ 软 划分 "和 “ 硬 划分 "的 分 类 方法 ,相应 与 14.6 节 的 单元 等 
级 分 划 和 14.7 节 的 非 等 级 的 均值 分 类 方法 有 相似 的 分 类 思路 。 此 外 模糊 模式 识别 对 
实体 的 归 类 ,其 所 处 理 的 问题 与 第 十 五 章 的 多 元 判别 分 析 是 相同 的 。 鉴 于 考古 学 研究 对 
象 的 特征 具有 明显 的 模糊 性 ,模糊 数学 在 考古 资料 的 定量 研究 中 应 该 是 很 有 前 景 的 。 关 
键 之 一 也 许 是 有 关 的 模糊 数学 应 用 软件 的 开发 和 普及 。 
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判别 分 析 是 一 种 对 实体 进行 归 类 的 多 元 统计 方法 。 例 如 一 个 病人 胸部 透视 照片 上 
发 现 了 阴影 ,要 判断 他 患 有 结核 或 肿瘤 哪 种 可 能 性 大 。 为 此 要 根据 相当 数量 结核 和 肿瘤 
病人 的 资料 ,包括 他 们 的 胸 片 上 阴影 的 位 置 . 大 小 、 形 状 、 边 缘 的 光滑 度 、 病 人 的 年 龄 、 是 
否 有 低烧 等 多 种 指标 来 判断 该 病人 患 结核 或 肿瘤 哪 种 可 能 性 大 ,应 该 归 入 哪 一 个 总 体 。 
在 古 次 的 鉴定 方面 ,如 果 已 知 明代 , 清 代 景 德 镇 官 窗 和 现代 青花 瓷器 的 元 素 组 成 ,对 于 一 
个 未 知 来 源 的 瓷器 ,我 们 希望 根据 测量 其 元 素 组 成 的 来 判断 它 是 明 、 清 的 古 次 ,还 是 现代 
的 次 器。 判别 分 析 就 是 根据 实体 的 特征 指标 判断 个 体 归属 于 哪 种 已 知 类 型 的 一 种 方法 。 
这 里 分 别 是 在 结核 和 肿瘤 两 类 中 选择 ,或 者 判断 未 知 的 青花 瓷 应 属 清 次 , 明 次 和 现代 资 
等 三 种 类 型 中 的 哪 种 ,分 别称 为 两 总 体 和 多 总 体 的 判别 分 析 。 在 我 国 最 早 应 用 判别 分 析 
于 考古 研究 的 是 王 令 红 (1987) ,他 将 我 国 华南 人 、 华 北 人 、 北 亚 蒙 古人 和 波利尼西亚 人 的 
颅骨 作为 已 知 的 类 型 ,通过 一 系列 的 颅骨 测量 性 状 , 判 别 在 上 述 4 类 人 群 中 ,日 本 人 与 哪 
一 人 群 最 接近 。 判 别 分 析 的 结论 是 :日 本 从 最 早期 的 港 川 人 、 绳 文 时 代 人 到 现代 日 本 人 
都 与 同时 期 的 华南 人 有 最 接近 的 亲缘 关系 。 作 为 多 元 统计 分 析 的 判别 分 析 的 计算 工作 
量 很 大 ,都 是 使 用 统计 软件 来 完成 的 ,因此 后 面 的 讨论 ,特别 是 实例 应 用 部 分 ,将 结合 
SPSS 软件 的 使 用 来 进行 。 本 章 首先 介绍 判别 分 析 的 基本 原理 ,然后 15.2—15.4 节 讨 论 
判别 分 析 的 3 种 方法 ,这 3 节 的 内 容 涉及 矩阵 运算 等 数学 方法 ,对 这 方面 内 容 不 十 分 熟悉 
的 读者 可 以 不 阅读 这 3 节 ,而 在 了 解 了 基本 原理 后 直接 阅读 15.5 节 及 后 面 的 应 用 实例 。 
在 15.5.3 小 节 中 讨论 了 判别 分 析 应 用 中 的 几 个 具体 问题 ,希望 能 引起 读者 的 注意 。 本 章 
最 后 将 简单 介绍 人 工 神经 网 络 方法 于 实体 的 归 类 。 


15.1 判别 分 析 的 基本 原理 


判别 分 析 的 基本 思想 可 以 通过 图 15-1 来 表示 。 

图 15-1 的 例子 代表 一 个 种 最 简单 的 情况 。 实 体 的 先 验 分 类 仅 为 A 和 了 两 类 ,而 每 个 
实体 只 需 х 和 x, 两 个 变量 来 描述 。 图 上 分 别 用 " x ”和 “。”" 表 示 样 本 A 和 B 中 实体 ,显示 
了 两 个 样本 中 实体 的 分 布 范 围 。 理 想 情 况 下 希望 两 个 样本 的 实体 点 的 分 布 接近 正 态 分 
布 ,而 且 分 布 有 相近 的 离散 程度 。 现 在 执行 一 个 线性 的 变换 z = арх жал, МЭ 
体 ; 根据 其 原始 坐标 值 (xil,xz) ,都 可 以 计算 一 个 二 值 ,我 们 希望 根据 z; 值 单个 变量 的 大 
小 来 判断 该 实体 应 归属 于 两 组 中 的 哪 一 组 。 选 择 不 同 的 а, 和 а 会 得 到 不 同 z, 值 .从 图 上 
可 见 , 如 果 这 样 选择 а, 和 a,, 使 得 计算 所 得 的 z 值 正好 和 图 上 的 z 轴 相符 ,显然 这 时 2 {Н 
能 够 最 佳 地 判别 某 个 实体 应 该 归属 于 4 或 者 B。 选 择 别 的 cl 和 а, 就 不 可 能 进行 这 样 有 效 
的 判别 。 判 别 分 析 就 是 要 寻找 这 样 一 个 能 对 实体 进行 最 佳 归 类 的 函数 222 称 为 判别 函数 ,ai 
和 az 是 判别 函数 的 系数 ,zs 称 为 实体 ;的 判别 得 分 。 但 是 在 图 上 有 一 块 两 个 样本 相互 交叉 重 
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图 15-1 两 个 先 验 组 实体 判别 分 析 原 
理 的 图 示 ( 引 自 Joseph,1979) 


歼 的 区 域 ,如 果实 体 及 其 判别 得 分 z; 值 正 好 处 在 这 个 区 域 , 就 有 可 能 发 生 误 判 , 误 判 率 的 大 
小 是 评价 判别 函数 有 效 性 的 标准 之 一 。 此 外 ,从 图 上 还 可 以 看 到 х, 对 于 判别 函数 2 的 贡献 
要 比 х, 大 些 。 从 上 述 关 于 判别 分 析 的 基本 原理 可 知 判别 分 析 有 三 方面 的 任务 和 内 容 。 

(一 ) 建立 判别 函数 和 实体 的 归 类 。 

根据 类 属 已 知 实体 的 坐标 x; 来 计算 推导 判别 函数 ， 并 根据 判别 函数 对 每 个 实体 归 
类 ,包括 对 已 知 类 属 和 未 知 类 属 的 全 部 实体 进行 归 类 。 这 是 三 方面 任务 中 最 主要 的 。 

1. 建立 判别 函数 和 判别 实体 归 类 的 方法 有 多 种 ,本 章 的 15-2,15-3 和 15-4 三 节 将 分 
别 介绍 费 舍 判 别 方 法 .距离 判别 方法 和 贝 叶 斯 概率 判别 方法 等 三 种 最 常用 的 方法 ,也 是 
SPSS 软件 的 默认 情况 。 它 们 都 是 原始 分 析 变 量 % 的 线性 函数 。 费 舍 判 别 是 基于 方差 分 析 
的 原理 , 它 对 已 知 类 属 的 实体 分 组 ,使 得 组 内 的 方差 尽量 小 而 组 间 的 方差 尽量 大 ,距离 判 
别 是 计算 实体 与 各 先 验 组 的 中 心 之 间 的 马 氏 距离 ,然后 将 每 个 实体 分 到 离 其 最 近 的 先 验 
组 中 。 贝 叶 斯 判别 则 利用 贝 叶 斯 概率 公式 ,在 要 求 每 个 实体 归属 某 类 的 概率 最 大 和 错 判 
损失 最 小 的 条 件 下 进行 实体 判别 归 类 。 因 此 贝 叶 斯 方法 考虑 了 各 总 体 出 现 的 概率 P.G) 
可 能 不 相等 ,此 外 它 还 可 以 考虑 错 判 造成 的 损失 程度 。 但 三 种 判别 方法 间 不 是 完全 孤立 
的 ,在 一 定 条 件 下 它们 间 是 可 以 互相 转换 的 ,例如 在 先 验 组 的 数目 是 两 个 时 , 马 氏 距离 判 
别 函 数 等 于 第 一 和 第 二 费 合 判 别 函 数 的 差 值 。 如果 先 验 组 的 数目 是 两 个 ,而 且 两 个 总 体 
均 服从 正 态 分 布 且 出 现 的 先 验 概率 相等 和 两 种 错 判 所 造成 的 损失 也 相等 时 , 贝 叶 斯 判别 
与 距离 判别 等 价 ,可 以 说 距离 判别 是 贝 叶 斯 判别 的 特殊 情况 。 

2. 需要 说 明 ,判别 分 析 中 判别 函数 的 数目 总 是 比分 类 数 少 一 。 即 分 2 组 时 仅 需 建立 1 
个 判别 函数 ,而 分 п 组 时 需 建 立 (n - 1) 个 判别 函数 ,但 是 各 判别 函数 对 判别 归 类 的 贡献 
是 不 相等 的 ,往往 只 需 考 虑 特征 值 最 大 的 一 、 二 个 判别 函数 就 能 进行 有 效 的 判别 归 类 。 这 
点 我 们 将 在 实例 应 用 中 看 到 。 | 
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3. 实际 建立 判别 函数 又 可 以 有 2 种 过 程 或 2 种 方法 , 即 变量 的 全 选 方法 和 逐步 筛选 
法 。 全 选 方法 又 称 全 模型 法 , 它 是 把 全 部 变量 (xi,xz,…xn) 一 起 引 和 人 判别 函数 。 但 是 在 
实际 的 应 用 中 并 不 是 每 个 变量 对 于 判别 过 程 都 起 作用 , 某 些 变量 不 仅 不 能 提高 判别 效 
果 , 反 而 会 抑制 其 他 变量 的 作用 。 另 外 变量 之 间 的 相关 性 也 可 能 导致 判别 函数 的 不 稳定 
和 判别 效果 的 降低 。 因 此 发 展 了 逐步 筛选 法 ,逐步 筛选 法 是 根据 一 定 的 判 据 依 次 将 对 判 
别 模 型 贡献 最 大 的 变量 引入 判别 函数 ,同时 剔除 对 判别 模型 影响 不 大 的 变量 。 最 终 仅 部 
分 原始 分 析 变 量 进 入 判别 函数 ,但 其 判别 效果 往往 更 好 。 

(二 ) 检验 判别 函数 的 有 效 性 。 

图 15-1 的 例子 中 已 经 显示 ,判别 分 析 中 可 能 出 现 错 判 , 即 把 原本 属于 4 组 的 实体 归 
类 到 8 组 ,或 者 把 原本 属于 中 组 的 实体 归 类 到 4 组 。 对 于 错 判 程度 ,可 以 用 “ 判 对 率 ” 来 
定量 衡量 。 如 果 已 知 类 属 的 实体 数 为 n, 其 中 有 个 实体 归 类 判别 正确 ,那么 判 对 率 为 


Ł, 但 是 这 样 计算 的 判 对 率 对 判别 函数 有 效 性 的 估计 是 偏 高 的 ,因为 判别 函数 本 身 是 根 


据 先 验 分 组 的 数据 建立 的 。 由 此 发 展 了 一 种 称 为 “leave опе out” 的 方法 , 它 每 次 将 一 个 实 
体 排 除 在 外 计算 判别 函数 ,用 这 个 判别 函数 计算 被 排除 实体 的 判别 得 分 并 进行 归 类 。 再 


计算 “leave опе out" 条 件 下 的 判 对 率 二 。 一 般 后 者 要 比 前 者 为 小 ,但 更 实际 地 估计 判别 画 
数 的 有 效 性 。 判 别 函 数 的 有 效 性 也 可 通过 Wi 上 k's А 值 来 表示 ,Wilk's 和 值 的 定义 在 15.5 
节 中 讨论 。 

(三 ) 分 析 原始 分 析 变 量 对 判别 函数 的 贡献 。 

在 判别 分 析 的 实际 应 用 中 ,最 终 希 望 能 解释 为 什么 某 个 实体 被 判 归属 于 某 类 ,这 就 
需要 了 解 原始 分 析 变量 对 判别 函数 的 贡献 。 每 个 分 析 变 量 对 于 判别 函数 的 贡献 是 不 同 
的 ,对 于 图 15-1 的 例子 , 直观 上 变量 n 对 于 判别 函数 贡献 较 n 为 大 。 对 于 多 变量 的 情况 ， 
判别 函数 的 形式 如 后 面 的 式 15-2 所 示 。 如 果 原 始 数 据 ; 已 作 了 标准 化 转换 ,那么 所 得 
判别 函数 系数 的 数 什 正 比 于 变量 ;对 于 判别 函数 的 贡献 ,此 外 变量 x; 与 判别 得 分 间 的 
简单 相关 系数 也 反映 了 变量 x; 对 于 判别 函数 的 贡献 。SPSS 软件 在 执行 判别 分 析 程序 
时 ,将 输出 一 个 (n x 1) 的 结构 矩阵 ,该 矩阵 的 元 素 是 判别 得 分 与 各 变量 间 的 简单 相关 系 
数 , 并 按 数值 的 大 小 排列 。 因 此 结构 矩阵 中 的 元 素 的 排列 次 序 反 映 了 变量 对 判别 函数 贡 
献 大 小 的 次 序 。 我 们 将 在 实例 应 用 节 再 回 到 这 个 问题 。 

后 面 的 3 节 将 介绍 费 会 判别 等 三 种 方法 。 需 要 说 明 这 里 我 们 均 限 于 讨论 两 总 体 的 
情况 , 即 已 知 先 验 组 的 数目 是 2 组 。 关 于 多 总 体 的 情况 , 仅 将 在 15.7 和 15.8 节 结合 实例 
应 用 予以 讨论 。 对 阅读 这 3 节 有 困难 的 读者 ,可 以 跳 过 这 些 内 容 ,直接 阅读 15.5 节 的 实 
例 应 用 。 


15.2 费 舍 判别 方法 
假设 有 n 个 实体 分 别 属 于 4 ,下 两 个 样本 ,它们 各 有 n 和 п, 个 实体 ,每 个 实体 均 被 m 


个 变量 描述 , xj 表示 第 i 个 实体 的 第 j 个 变量 的 取 值 并 且 是 已 知 的 。 进 行 判别 分 析 有 两 个 
假设 前 提 。(1) 这 两 个 样本 均 来 自 正 态 分 布 总 体 和 和 (2) 两 总 体 的 协 方差 矩阵 相等 , 即 有 
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S1 = Sz。 样 本 的 协 方差 矩阵 $ 是 m x т 的 矩阵 ,其 第 i 行 第 j 列 元 素 s; 的 定义 是 
- 0 оа 00у ~ 5) (15-1) 


x; 和 wx; 是 变量 x; 和 xi 的 组 平均 值 , 协 方差 矩阵 对 角 线 上 的 元 素 就 是 方差 。 希望 建立 的 判 
别 函 数 的 形式 为 


s 


ў 


F = ag + ах + @;Х) + + ах (15-2) 
式 中 的 Жа 值 称 为 判别 函数 的 系数 。 对 于 每 个 实体 都 可 以 计算 一 个 判别 得 分 值 ,而 对 
每 个 样本 可 以 计算 其 判别 得 分 的 平均 值 , 即 了 ; 和 了 ,和 判别 得 分 的 方差 5? 和 纪 。 费 会 判别 
认为 最 佳 的 判别 是 希望 了 和 了 ,相差 尽量 大 ,而 组 内 的 方差 f 和 82 尽量 小 。 即 组 内 的 各 实 
体 聚 集 得 尽 可 能 密集 ,而 两 个 组 中 心间 的 距离 尽 可 能 远 。 应 该 根据 上 述 的 要 求 来 确定 判 
别 函 数 的 诸 系数 。 
因为 已 经 假设 两 个 总 体 的 协 方差 矩阵 相等 ,可 以 计算 524152 ВР ВИН sh, 称 为 计 
权 平 均 组 内 方差 。 
2- [Cn - 051% (п)- 1) 85] 


w (тп, + n – 2) (15-3) 
组 内 方差 s2 反映 组 内 实体 判别 得 分 的 离散 程度 。 同 样 可 计算 组 间 的 方差 s$: 
85 = т, 7) + np- 7) (15-4) 


纺 反 映 两 个 样本 各 自 平均 判别 得 分 的 离散 程度 。 应 该 这 样 来 确定 公式 (15-2) 中 的 诸 a; 


值 ， 使 得 组 间 广 差 相对 于 组 内 方差 的 比 人 尽量 大 。 上 述 判 别 分 析 的 基本 思想 和 计算 判 
别 函数 的 系数 的 方法 是 费 合 首 先 提 出 来 的 ， 四 此 称 为 费 售 判别 方法 ， 他 借用 了 一 元 方差 


分 析 的 思想 ( 见 第 七 章 公 式 7-16)。 至 于 如 何 根据 使 了 4 足 量 大 的 原则 来 具体 确定 诸 a 值 ， 


在 数学 计算 上 是 较 复 杂 的 ， 这 里 不 可 能 作 详 细 的 讨论 ,而 是 直接 给 出 结论 。 可 以 证 明 , 满 
足 上 述 要 求 的 判别 函数 的 系数 矢量 a,(a 的 转 置 矢量 是 w&' = (a1,a1,…an) ) 正比 于 

$„(ху-х;) (15-5) 
由 此 可 以 计算 式 (15-2) 的 诸 а, 值 。 式 中 的 S, 是 组 内 计 权 平 均 协 方差 矩阵 хі 和 х 分 别 
是 表示 两 组 中 心 坐标 的 矢量 。 由 此 可 以 看 出 ,两 组 平均 判别 得 分 的 差 值 (7 - Л) 就 是 在 
原来 的 变量 坐标 空间 中 两 组 中 心间 马 氏 让 离 的 平方 , 即 


(О Р) = (x - x)’ S3! Cx; - х0) = Р? (15-6) 
而 实体 i 到 第 一 组 中 心 的 马 氏 距离 平方 D4 为 
рё, = (х; - х)8: (x; — х) (15-7) 
х 是 代表 第 i 个 实体 空间 位 置 的 矢量 。 式 (15-7) 也 可 改写 成 
D? = – 20518515; - су) + с (15-8) 


式 中 с, 对 组 1 是 一 个 常数 ,e 是 与 组 别 无 关 的 常数 。 括 弧 内 的 公式 是 x; 的 线性 函数 , 称 为 
第 一 组 费 会 线性 判别 函数 。 同 样 方法 计算 实体 i 到 第 二 组 中 心 的 马 氏 距离 平方 De 为 
Р%, 三 一 2(х›'5\х; 一 сз) ке (15-9) 
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式 (15-9) 括 弧 内 的 内 容 是 第 二 组 的 费 舍 线性 判别 函数 。 对 于 任何 一 个 实体 既 可 以 根据 费 
会 线性 判别 函数 的 大 或 小 ,也 可 以 根据 马 氏 距离 的 近 或 远 , 归 类 到 两 组 中 的 哪 一 组 。 我 
们 将 在 15.3 详细 讨论 怎样 利用 马 氏 距离 进行 判别 。 


15.3 距离 判别 方法 * 


上 一 节 讨 论 了 费 售 判别 方法 ,并 在 讨论 中 进一步 前 述 了 判别 分 析 的 基本 思想 。 本 节 
将 介绍 距离 判别 方法 。 距 离 判别 的 思想 也 是 简单 明了 的 。 在 图 15-1 上 ,A,B 两 组 实体 都 
有 一 个 中 心 ,考察 任何 一 个 代表 实体 的 点 (ха, җә) , 它 离 哪个 中 心 近 , 距 离 短 ,这 个 实体 
就 应 该 归属 哪 一 组 。 但 是 使 用 我 们 通常 熟悉 的 欧 氏 距离 作为 距离 的 度量 不 合适 ,因为 当 
测量 变量 的 单位 变化 时 ,距离 的 数值 相应 发 生变 化 ,而 且 当 几 个 变量 间 存 在 较 强 的 相关 
关系 时 ,也 会 影响 距离 的 度量 。 所 以 需要 使 用 马 氏 有 距离 作为 实体 亲 和 实 体 和 组 中 心间 距 
离 的 度量 。 在 14.3.1 小 节 中 已 简单 介绍 了 马 氏 距离 的 概念 ( 见 公 式 (14-10))。 空 间 任 何 
两 点 xf M х. 的 马 氏 距离 平方 为 
D? (ху,х) =(хү-х,)'8!(хү-х,) (15-10) 
$ 为 协 方差 矩阵 ,要求 83>0。 为 了 书写 的 方便 ,组 中 心 的 坐标 х, 写 为 后 。 假 设 对 于 两 个 
样本 有 8,-5,- S, 即 它们 的 协 方差 矩阵 相等 ,那么 任何 样品 点 x 到 两 个 组 中 心 的 马 氏 
距离 平方 分 别 为 


D’ (х,ш) = (х- p) (х-ш) (15-Па) 
р? (х, р) = (х - р,)'5 (х - р) (15-115) 

计算 两 个 马 氏 距离 平方 的 差 
AD = D (x,p,)- D (х, р) (15-12) 


如 果 Ар? > 0, 那 么 实体 * 归属 第 二 组 ,反之 如 果 人 入 有 玉 < 0, 那 么 实体 х 归属 第 一 组 ,在 
两 个 协 方差 矩阵 相等 的 假设 条 件 下 ,公式 15-12 经 过 一 系列 运算 后 可 写成 


др? = (х - ууру pa) = 2(х-Й'57(ш-ш) (1543) 


- AD? 
ФА = S(p; - р), Ж G(x) = 5, 则 式 15-13 可 改写 为 
G(x) = (х-һн)'А = А'(х - р) (15-14) 
С(х) х 的 线性 判别 函数 ,A 是 判别 函数 中 的 诸 w 系数 , 即 判 别 系数 。 对 比 式 (15-8) 和 
(15-9) 可 知 , 马 氏 距离 判别 函数 等 于 第 一 和 第 二 费 舍 判别 函数 的 差 。 . 
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前 一 节 介 绍 的 马 氏 距离 判别 ,其 思路 明晰 ,涉及 的 计算 过 程 相对 简单 而 且 结 论 明确 。 
男 外 它 实 际 上 对 总 体 的 分 布 并 没有 什么 前 提要 求 ,因此 得 到 广泛 的 应 用 。 但 是 它 没有 考 
虑 各 总 体 出 现 的 概率 PG) 可 能 不 相等 ,此 外 它 默 认错 判 造成 的 损失 是 常数 , 即 认为 
CGI = СО) СОТ) ЖАТ 6 组 的 实体 误 判 归属 C 组 所 造成 的 损失 。 贝 叶 斯 
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判别 方法 正 是 为 解决 这 些 问 题 而 提出 的 .下 面 作 简要 介绍 。 
RA k ТАЖ G1, б 6 它们 的 分 布 密度 函数 为 (x), 总 体 С, 出 现 的 概率 为 
P(Gi), 且 有 УРО С) =1,C(i17) 是 本 属于 C 组 的 实体 误 判 归属 于 6; 组 所 造成 的 损失 。 


如 果 „ы ШТ ССІПрП>0 ІНІ =у,С(ї1)) -0(1,) = 1,2,9 k) o ТЯ] А 
基本 原则 是 要 求 每 个 实体 归属 某 类 的 概率 最 大 和 错 判 损失 最 小 。 贝 叶 斯 判别 函数 的 建立 
需要 关于 PCG), A) 和 C(i1j 的 知识 ,而 且 计算 十 分 复杂 。 对 于 较 简 单 的 情况 有 = 2， 
只 有 两 个 总 体 的 情况 , 则 有 
fi(x) C(112)P(G,) 
ЖЖ С > ОС(УТ1УРСС” 


fi(x) С(112)Р(б,) „ 
MRE < COP) "实体 * 归 属于 第 2 组 ,x € с, (15-15) 


WR P(G1) = P(G,), 即 如 果 两 个 总 体 出 现 的 概率 相等 ( 称 为 先 验 概率 相等 ), 而 且 
C(112) = C(211), 即 两 种 误 判 所 造成 的 损失 也 相等 , 则 公式 (15-15) 的 左边 等 于 1, 这 样 
实体 x 归属 于 哪个 总 体 ,完全 取决 于 分 布 密度 函数 Д(х) 与 (x) 哪个 大 。 最 理想 的 情况 
是 , 除 P(G1) = Р(6,) ЯІ С(112) = C(211) 外 ,而 且 fi(x) 与 (x) 均 服从 正 态 分 布 ， 
这 时 贝 叶 斯 判别 与 距离 判别 完全 等 价 , 可 以 说 距离 判别 是 贝 叶 斯 判别 的 特殊 情况 。 

如 果 只 是 假设 C(1 12) = C211), RAXA x 归属 于 6G; 组 的 概率 为 

Р(х | СӘРСС;) 
У!Р(х | бӘР(С;) 

这 是 我 们 熟悉 的 贝 叶 斯 公式 ( 见 第 四 章 公式 (4-10))。 式 中 的 PCG) 是 总 体 С, 出现 的 
先 验 概率 ,也 可 以 理解 为 实体 属于 С, 的 先 验 概率 。 对 于 两 总 体 的 判别 分 析 有 两 种 选择 来 
确定 P( Gi;),(1) 认为 每 个 总 体 出 现 的 概率 是 相等 的 , 即 有 PCG) = Р(6,) = 0.5.(2) 认 
PAPE AE AE IS HEO PRA, DA PEA BOER E 总 体 G 出 现 的 先 验 概率 , 即 有 


(15-17) 


,实体 x 归属 于 第 1 组 ,x € с, 


Р(б,|х) = (15-16) 


P(G) = 


nı 十 ny 

公式 中 的 пу 和 п 分 别 是 样本 1 和 样本 2 күзге o 

Р(х | Gi) 是 实体 % 在 总 体 G; 中 出 现 的 条 件 概率 ,其 数值 依赖 于 总 体 的 密度 分 布 函数 
fi(x) ,如 果 已 知 f(x) 服 从 正 态 分 布 函 数 , 而 且 其 平均 值 和 方差 可 以 用 样本 的 平均 值 和 方 
差 估计 ,那么 P(x 1 G) 是 可 以 计算 得 到 的 。 从 而 利用 公式 (15-16) 可 以 计算 实体 x 分 别 归 
“属于 总 体 G1 和 С, 的 后 验 条 件 概率 РОС |x) 和 Р( б, 1x) ,根据 后 验 概 率 的 大 小 确定 实 
Ж х 归属 于 两 组 中 的 哪 一 组 。SPSS 软件 中 用 户 可 以 选择 先 验 概率 ,条 件 概率 是 根据 正 态 
分 布 计算 的 ,程序 执行 结果 给 出 实体 属于 各 总 体 的 后 验 概率 。 


15.5 两 总 体 全 选 模型 判别 分 析 的 实例 : 殿 超 颅骨 的 种 系 判别 
本 节 和 后 面 的 3 节 将 通过 判别 分 析 的 应 用 实例 ,先后 介绍 两 总 体 的 全 选 模型 和 逐步 


筛选 方法 ,以 及 多 总 体 的 全 选 模型 和 逐步 筛选 方法 。 
第 十 四 章 讨论 等 级 聚 类 和 非 等 级 的 K- ВИН ОГ ЯШ ЫШ ДЕЗЕ, Ж ХУ ЯШ БЕЗЕ А0 22 组 
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颅骨 的 分 类 为 例子 。 为 了 便于 比较 ,本 节 也 使 用 这 22 组 颅骨 的 数据 作 判 别 分 析 。 表 14-7 
列 出 了 这 22 组 颅骨 21 项 测量 指标 的 平均 值 。 第 十 四 章 进行 的 均值 聚 类 ,Ward's AR 
类 和 K- 均值 分 划 在 将 这 批 颅骨 分 为 2 类 或 2 组 时 ,得 到 的 分 类 结果 是 相同 的 。 第 1 组 
包括 全 部 9 组 北 亚 类 型 的 颅骨 和 专门 挑选 的 形态 接近 北 亚 类 型 的 筷 既 球 祀 境 1 ЯП ДИЛЕР 
Ма 江 颅 骨 , 共 11 组。 第 二 组 也 是 8, НЯ TEER I ЖЕМЕ ОП НЕ 
10 组 东亚 类 型 颅骨 加 上 高 加 索 类 型 颅骨 组 成 。 如 果 要 求 进一步 将 22 组 颅骨 分 为 3 组 
ВР, МЕЖЕ K- 均值 分 划 都 将 高 加 索 类 型 颅 肯 从 东亚 组 中 分 离 而 独立 为 一 类 ,但 
Ward's 方 法 取 类 却 是 将 北 亚 组 继续 分 为 典型 北 亚 类 型 和 极地 北 亚 类 型 两 个 亚 组 ,高加索 
类 型 颅骨 仍 保留 在 东亚 组 中 ( 见 图 14-6 和 图 14-7) 。 


15.5.1 SPSS11.0 软件 全 选 模型 判别 分 析 程 序 的 对 话 框 


下 面 使 用 SPSS11.0 软件 的 全 选 法 判别 分 析 程 序 来 检验 上 面 的 分 类 结果 。 在 叙述 判 
别 分 析 的 过 程 和 结果 时 同时 对 SPSS 中 判别 分 析 程 序 的 选项 和 输出 作 说 明 。 需 要 说 明 ， 
前 面 曾 多 次 提 到 判别 分 析 的 效率 ,但 没有 介绍 怎样 定量 地 估计 判别 效率 ,也 没有 讨论 怎 
样 检验 判别 的 有 效 性 ,这 方面 的 内 容 也 将 通过 这 个 实例 作 讨 论 。 

判别 分 析 中 暂时 不 考虑 高 加 索 颅 骨 , 将 北 亚 组 11 НИЕ (СӘ ДЕШ ЈЕУ Т ЯПАН H 
Лу ПЖ 10 组 颅骨 作为 两 个 已 知 组 或 先 验 组 。 为 此 在 表 14-7 的 SPSS 的 数据 文 
件 中 要 添加 一 个 分 类 变量 ,对 北 亚 组 该 变量 取 值 为 1, 对 东亚 组 取 值 2, 对 高 加 索 颅 骨 取 值 
3。 在 判别 分 析 程 序 的 对 话 窗 口中 通过 输入 分 类 变量 名 和 分 类 变量 的 取 值 ,来 选择 进入 
分 析 阶 段 的 实体 ;全 部 21 项 测量 指标 作为 分 析 变 量 输 入 并 选择 全 选 法 。 打 开 “Classify” 对 
话 窗 口 :(1) 选 择 两 组 的 先 验 概率 PG) 相等 。(2) 要 求 计 算 和 输出 各 实体 的 判别 得 分 ， 
它们 与 两 组 中 心间 的 马 氏 距离 ,它们 的 归属 组 别 和 相应 的 概率 。(3) 选 择 使 用 组 内 协 方 
差 矩 阵 作 分 析 。 回 到 判别 分 析 的 主 窗口 , 单 击 “OK”, 即 可 执行 判别 分 析 程 序 。 


15.5.2 执行 SPSS11.0 软件 全 选 模型 判别 分 析 程 序 的 输出 内 容 和 解释 


1. 程序 首先 列表 汇总 输出 :输入 的 实体 数目 和 进入 分 析 阶 段 的 实体 数目 (本 例 分 别 
为 22 和 21) ,每 个 先 验 分 组 中 的 实体 数目 和 全 部 分 析 变 量 的 名 称 。 

2. 程序 显示 因 其 容忍 度 太 低 而 被 程序 自动 排除 在 分 析 变 量 之 外 的 变量 名 称 。 在 本 
例 中 颅 宽 高 指数 .中 上 面 角 、 鼻 指数 、 眶 指数 和 额 宽 指数 等 5 个 变量 因 其 容忍 度 太 低 而 被 
排除 。 变 量 的 容忍 度 定义 为 1 - R$, R 为 变量 i 与 其 他 所 有 变量 的 总 线性 相关 系数 。 容 
忍 度 太 低 的 变量 对 模型 的 贡献 很 小 而 且 可 能 引起 计算 中 的 麻烦 。 

3. 程序 给 出 Wilk's 4 值 并 对 判别 函数 作 相应 的 显著 性 检验 ,如 表 15-1 所 示 。Wilk’s 
4 值 定义 为 实体 判别 得 分 的 组 内 高 差 平方 和 与 总 平方 和 的 比值 , 它 是 判别 得 分 总 变 蜡 中 
未 能 被 组 间 差 异 所 能 解释 部 分 的 百分比 。Wik's 4 值 总 在 0 一 1 间 变 动 , 这 个 检验 量 越 接 
近 0 表示 未 能 被 解释 部 分 的 比例 越 小 ,判别 判别 函数 的 有 效 性 越 高 。 在 两 个 组 判别 得 分 
的 总 体 间 不 存在 差异 的 零 假 设 下 , Wilk’ sà 值 可 转化 为 一 个 近似 服从 这 分 布 的 统计 量 ,其 
自由 度 等 于 被 保留 的 变量 数 。 对 于 所 分 析 的 例子 ,) = 0.013 ,十 分 接近 0, y 检验 也 拒绝 
两 总 体 的 均值 间 不 存在 差异 的 零 假 设 。 
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Ж 15-1 Wik'"s 入 值 和 相应 的 у 检验 
Test of Function(s) Wilk’ в Lambda Chi-square df Sig. 
1 0.013 47.541 16 0.000 


4. 输出 判别 函数 的 系数 。 因 为 先 验 分 组 为 两 组 ,只 生成 一 个 判别 函数 。 表 15-2а 和 
15-2b 分 别 给 出 标准 化 和 未 标准 化 的 判别 函数 系数 a; ,它们 分 别 对 应 于 标准 化 和 未 标准 
化 的 原始 数据 x; ,将 它们 代入 公式 (15-1) 就 可 得 到 判别 函数 。 


表 15-2a 标准 化 判别 函数 系数 


Function 

1 
颅 长 -0.358 
颅 高 - 2.071 
颅 宽 -0.827 
耳 上 颅 高 2.366 
最 小 额 宽 - 0.929 
Ш. -0.791 
上 面 高 1.051 
鼻 高 -1.140 
а 宽 0.203 
НЕ 宽 0.760 
Е 高 0.709 
面 角 -0.356 
齿 槽 点 角 2.449 
鼻 根 点 角 -0.483 
颅 指数 1.270 
颅 长 高 指数 1.245 


15-2Ь ” 非 标准 化 判别 函数 系数 


Function 
1 

颅 长 -0.189 
颅 高 - 0.558 
颅 宽 -0.432 
耳 上 颅 高 1.561 
最 小 额 宽 -0.681 
ыж ~ 0.356 
上 面 高 0.564 
АН -1.033 
鼻 宽 0.140 
Е 7 0.596 


Е 高 0.754 
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续 表 

Function 
1 

面 角 -0.180 
齿 槽 点 角 1.936 
鼻 根 点 角 -0.317 
颅 指数 0.527 
颅 长 高 指数 1.273 
(Constant) — 173.525 


非 标准 化 的 判别 函数 系数 中 有 一 个 常数 项 。 利 用 非 标准 化 的 判别 函数 可 计算 得 到 
两 组 中 心 的 判别 得 分 ,如 表 15-3 ТЖ: 
表 15-3 各 组 中 心 的 判别 得 分 


Function 

Cluster Number of Case 1 
1 -7.819 
2 8.601 


ЕИ ВТ, ТЕ“ Statistic” ЖЕҢЕ P В T “Fisher s" 项 ,程序 也 可 显示 费 舍 函 
数 相 应 的 两 列 系数 。 

5. 程序 输出 的 “Casewise Statisties” 表 显示 了 每 一 个 实体 的 判别 分 析 结 果 ,包括 每 个 实 
体 的 先 验 分 组 和 判别 分 析 归 组 ,实体 的 判别 得 分 ,实体 与 两 个 组 中 心间 的 马 氏 距离 ,实体 
归属 到 两 组 中 每 一 组 的 后 验 概 率 等 。 这 是 判别 分 析 的 重要 结果 ,但 鉴于 该 表格 所 占 篇 幅 
太 大 ,这 里 不 予 列 出 。 | 

程序 也 给 出 判别 归 类 汇总 表 , 它 统计 各 实体 的 先 验 分 组 和 判别 归 组 是 否 符合 ,计算 
判别 分 析 的 判 对 率 和 误 判 率 。 在 本 节 分 析 的 实例 中 ,全 部 21 组 颅骨 的 先 验 分 组 与 判别 
归 组 均 为 一 致 , 判 对 率 达 100% 。 在 前 面 判 别 分 析 的 分 析 阶 段 时 ,高加索 类 型 颅骨 是 被 排 
除 在 外 的 ,但 当 得 到 判别 函数 后 ,也 可 以 计算 高 加 索 类 型 颅骨 这 类 未 进入 分 析 阶 段 的 实 
体 的 判别 得 分 ,并 对 它 进 行 归 组 。 高 加 索 类 型 颅骨 被 归 人 第 2 组 , 即 东 亚 组 。 与 第 十 四 
章 中 两 种 聚 类 方法 和 K - 均值 分 划 的 分 类 结果 是 一 致 的 。 

实际 上 利用 前 面 计 算 的 判 对 率 来 估计 判别 函数 的 有 效 性 ,往往 是 估计 过 高 ,过 分 乐 
观 的 ,因为 判别 函数 是 在 考虑 了 先 验 分 组 的 条 件 下 计算 得 到 的 。 为 了 更 现实 地 计算 判 对 
率 发 展 了 一 种 称 之 为 “Leave-one-out "的 方法 , 它 逐 次 将 一 个 实体 排除 在 外 计算 判别 函数 ， 
用 这 样 计 算 而 得 的 判别 函数 计算 被 排除 实体 的 判别 得 分 并 对 它 进 行 归 类 。 对 于 21 组 颅 
E ,“Leave-one-out” 判别 分 析 的 结果 有 2 个 实体 被 误 判 ,分 别 是 东亚 的 鹿 祭祀 坑 耻 和 现代 
华南 颅骨 ,它们 被 归 人 北 亚 组 “Leave-one-out" 判 别 分 析 的 判 对 率 为 90.5%。 表 15-4 是 归 
类 结果 汇总 表 , 表 的 上 半 部 分 汇总 21 个 进入 分 析 阶 段 的 实体 的 判别 分 析 结 果 。 该 表 的 
下 半 部 分 汇总 “Cross-validated”, 即 “leave опе out” 判 别 分 析 的 结果 ,可 见 第 2 先 验 组 中 有 2 
个 实体 误 判 ,被 归 类 进 第 1 组 。 表 中 “ungrouped cases” 指 本 例 中 的 高 加 索 类 型 版 骨 。 
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表 15-4 全 选 判别 方法 归 类 结果 汇总 表 


Predicted Group Total 
1 2 
Original Count 1 11 0 11 
2 0 10 10 
Ungrouped cases 0 1 1 
% 1 100.0 0.0 100.0 
2 0.0 100.0 100.0 
Ungrouped cases 0.0 100.0 100.0 
Cross-validated Count 1 11 0 11 
2 2 8 10 
% 1 100.0 0.0 100.0 
2 20.0 80.0 100.0 


判别 分 析 的 结果 也 可 以 以 图 形 的 形式 输出 。 图 15-2 是 22 组 颅骨 判别 得 分 的 直方 

图 ,可 以 看 出 北 亚 组 颅骨 分 布 在 左边 ,而 东亚 组 在 右边 ,两 者 间 的 距离 是 拉 开 的 ,反映 判 

别 的 有 效 性 较 高 。 前 面 提 到 判别 分 析 程 序 对 原始 数据 表 中 的 每 一 个 实体 ,包括 其 先 验 类 
属 未 知 的 实体 都 进行 归 类 ,将 其 归 人 某 类 组 。 未 进入 分 析 阶 段 的 高 加 索 组 虽 被 归 人 了 东 

亚 组 ,但 是 高 加 索 颅 骨 的 判别 得 分 为 2.89 ,与 东亚 组 组 中 心 的 判别 得 分 8.601 相距 颇 远 ， 

这 在 图 中 也 明显 可 见 。 因 此 判别 分 析 对 实体 的 归 类 并 不 是 证 明 该 实体 一 定 属 于 所 归属 

的 类 组 ,而 仅 表 示 在 各 先 验 组 之 间 ,该 实体 根据 其 属性 的 取 值 更 接近 于 其 所 归属 的 类 组 。 

具体 到 高 加 索 组 颅骨 的 归 类 ,应 该 理解 为 相对 于 北 亚 组 , 它 更 接近 于 东亚 组 , 归 人 东亚 组 

不 是 说 明 它 一 定 属 于 东亚 组 。 


东亚 类 型 


0 
-100 6.0 100 


0 -2.0 2.0 
判别 分 析 得 分 

图 15-2 22 组 颅骨 判别 得 分 的 直方 图 
6. 最 后 ,人 们 还 希望 了 解 是 哪些 原始 变量 决定 了 每 个 实体 的 归 类 , 即 希望 了 解 各 原始 


分 析 变量 对 判别 函数 贡献 的 大 小 。 这 可 以 根据 标准 化 判别 函数 的 系数 来 估计 。 表 15-2a 列 
出 了 标准 化 判别 函数 的 各 系数 ,从 表 中 看 到 齿 槽 点 角 , 耳 上 颅 高 和 颅 高 等 变量 的 判别 系数 
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均 大 于 2, 而 鼻 宽 , 面 角 等 变量 的 判别 系数 很 小 ,小 于 0.3, 因 此 前 面 3 个 变量 对 判别 函数 的 
贡献 要 显著 大 于 鼻 宽 , 面 角 等 变量 。 此 外 SPSS 判别 分 析 程 序 的 执行 还 输出 一 个 结构 矩阵 ， 
如 表 15-5 所 示 。 结 构 矩 阵 的 元 素 是 各 原始 分 析 变量 与 标准 化 判别 函数 值 间 的 相关 系数 ,并 
按 数值 的 大 小 排列 。 相 关系 数 反映 了 各 变量 对 判别 函数 的 贡献 ,因此 表 中 排列 靠 前 的 变量 
对 判别 函数 贡献 较 大 。 虽 然 矩 阵 排 列 靠 前 的 变量 和 标准 化 判别 函数 中 系数 大 的 变量 不 全 
相同 ,但 是 它们 都 是 反映 区 分 蒙古 大 人 种 北 亚 和 东亚 类 型 颅 骨 的 主要 特征 ,如 疗 部 面部 的 
宽 窗 长 短 和 颅 部 的 相对 高 低 。 这 些 特征 在 决定 判别 函数 中 有 很 大 的 权重 。 


Ж155 判别 分 析 的 结构 矩阵 ( 按 数值 大 小 排列 ) 


Function 


1 


йй -0.218 
颅 长 高 指数 0.190 
最 小 额 宽 -0.176 
ЕЖ” -0.160 
нн 0.145 
眶 高 -0.140 
鼎 宽 高 指数 ” 0.138 
HEMA 0.125 
上 面 高 -0.118 
№ 宽 -0.117 
кн -0.110 
ARKA 0.088 
颅 指数 -0.082 
中 上 面 角 * -0.071 
鼻 指 数 ” - 0.066 
颅 长 -0.044 
面 角 -0.033 
眶 宽 - 0.026 
鼻 根 点 角 0.025 
АЯ 0.016 
额 宽 指 数 ” 0.015 


“x "表示 此 变量 未 被 应 用 于 判别 分 析 , 即 因 容 忍 度 低 而 被 排除 的 变量 。 


7. SPSS 判别 分 析 程 序 根 据 用 户 的 选择 ,还 可 以 输出 其 他 的 统计 量 , 例 如 各 个 协 方差 
矩阵 , 费 舍 判别 函数 的 系数 ,对 各 个 变量 进行 一 元 方差 分 析 等 。 


15.5.3 判别 分 析 中 的 几 个 问题 


1. 关于 正 态 分 布 与 歧 离 实体 。 在 本 章 的 最 初 曾 提 到 样本 来 自 正 态 总 体 是 判别 分 析 
的 一 个 前 提 。 但 是 在 后 面 的 讨论 中 可 以 看 到 这 个 前 提要 求 并 非 是 绝对 严格 的 ,虽然 前 提 
的 成 立 使 得 贝 叶 斯 判别 与 距离 判别 等 价 。 判 别 分 析 实 际 使 用 的 经 验 也 表明 ,总 体 的 实际 
分 布 略 偏离 正 态 不 会 严重 影响 判别 分 析 的 结果 。 但 是 偏离 组 中 心 很 远 的 歧 离 实体 (Outli- 
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er) 的 存在 会 影响 判别 函数 的 称 定性 和 有 效 性 ,而且 这 些 歧 离 实体 也 破坏 总 体 间 协 方差 -- 
致 性 的 前 提 。 因 此 在 进行 判别 分 析 前 ,要 对 原始 数据 作 前 期 观察 , 吻 除 掉 严重 偏离 样本 
均值 的 歧 离 实体 。 

2. 总 体 间 协 方差 的 一 致 性 问题 。15.2 一 15.4 介绍 的 三 种 判别 标准 都 要 求 总 体 间 协 
方差 的 一 致 性 。 已 发 表 的 不 少 应 用 判别 分 析 的 研究 论文 中 并 没有 严格 地 关心 方差 一 臻 
性 前 提 ,而 直接 注意 判别 效果 的 优 劣 。SPSS 的 判别 分 析 程 序 提供 了 检验 方差 一 致 性 的 
Box 方法 。 但 Вох 检验 对 进入 分 析 的 实体 的 数目 有 一 定 要 求 ,我 们 将 在 下 一 节 逐 步 筛 选 
判别 分 析 方法 中 讨论 。 | 

з. 实体 与 变量 的 数目 。 用 于 建立 判别 函数 的 每 个 先 验 组 中 实体 的 数目 不 应 太 少 ,这 不 仅 
是 Вох 检验 的 要 求 。 如 果实 体 数目 太 少 , 即 样本 容量 太 低 会 导致 判别 函数 的 不 稳定 性 ,建立 判 
别 函 数 的 基础 是 已 知 先 验 分 类 的 实体 的 数据 。 理 想 情 况 下 要 求 wm > 2m, 即 每 个 先 验 组 实体 
的 数目 大 于 2 倍 的 变量 数目 。 当 实际 测量 的 实体 的 数量 太 少时 ,应 考虑 适当 减少 选择 变量 的 
数目 。 逐 步 选择 判别 比 全 选 法 的 一 个 优点 是 它 排除 了 一 些 对 判别 作用 不 大 的 变量 。 

4. 判别 分 析 对 每 一 个 未 知 类 属 的 实体 归 类 ,但 这 并 不 证 明 该 实体 就 来 自 所 归 类 属 的 
总 体 ,而 仅仅 表明 在 诸 先 验 类 属 中 ,该 实体 的 性 状 最 接近 于 某 个 类 属 。 正 如 本 节 讨 论 的 
实例 中 ,判别 分 析 将 高 加 索 类 型 颅骨 判 归 蒙 古人 种 东亚 类 型 组 ,但 是 高 加 索 类 型 颅骨 并 
不 属于 蒙古 人 种 东亚 类 型 。 判 别 分 析 的 结果 仅仅 表明 ,相对 于 北 亚 类 型 ,高 加 索 类 型 颇 
骨 更 接近 于 东亚 类 型 。 这 个 结论 不 应 往外 延伸 。 近 年 我 国有 不 少 研究 单位 在 建立 各 类 
古代 名 次 的 化 学 组 成 数据 库 ,并 试图 根据 这 些 数 据 库 ,使 用 判别 分 析 的 方法 对 市 场 上 未 
知 来 源 的 瓷器 进行 鉴定 ,判别 它们 是 否 属于 某 类 古代 名 次 。 鉴 于 判别 分 析 上 述 的 基本 的 
特点 ,必须 慎 审 对 待 这 种 瓷器 鉴定 方法 ,一般 情 况 下 辨 伪 较为 容易 ,而 希望 确认 某 件 瓷器 
确实 属于 某 类 古代 名 效应 十 分 小 心 。 


15.6 两 总 体 逐 步 第 选 模型 判别 分 析 的 实例 : 拱 墟 颅骨 种 系 的 再 判别 


15.6.1 逐步 筛选 模型 判别 分 析 的 思想 和 积 SPSS 对 话 框 


本 节 介绍 逐步 筛选 判别 分 析 方法 。15.5 节 讨论 的 全 模型 法 把 全 部 变量 (x1,%， 
seen х) 一 起 引入 判别 函数 。 但 是 在 实际 的 应 用 中 并 不 是 每 个 变量 对 于 判别 过 程 都 起 作 
用 , 某 些 变量 不 仅 不 能 提高 判别 效果 ,反而 会 抑制 其 他 变量 的 作用 。 另 外 变量 之 间 的 相 
关 性 也 可 能 导致 判别 函数 的 不 稳定 和 判别 效果 的 降低 ,因此 发 展 了 逐步 第 选 法 。 逐 步 和 
选 法 是 根据 一 定 的 判 据 首先 将 一 个 对 判别 模型 贡献 最 大 的 变量 引入 判别 函数 ,第 二 步 再 
将 贡献 次 大 的 变量 引入 ,这 样 一 步 步 的 筛选 变量 进入 模型 。 同 时 新 变量 的 进入 可 能 会 因 
为 变量 间 的 相关 性 而 降低 已 选 变量 对 判别 模型 的 贡献 ,这 样 又 要 根据 一 定 的 判 据 检验 是 
否 需要 将 哪个 已 被 选 人 的 变量 剔除 ,不 断 的 筛选 进入 和 不 断 的 剔除 ,直到 已 选 人 的 变量 
都 符合 判 据 的 要 求 而 模型 外 未 选 或 被 剔除 的 变量 都 不 符合 被 选 进入 模型 的 判 据 时 ,逐步 
筛选 的 过 程 结束 。 逐 步 筛 选 法 建立 的 判别 函数 仅 包含 部 分 变量 ,但 是 其 判别 效果 往往 更 
好 。 逐 步 利 选 法 的 判 据 可 以 用 贝 叶 斯 判别 函数 ,可 以 用 马 氏 距离 也 可 以 用 费 售 判 别 标 
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准 。 关 于 判 据 的 具体 数值 标准 将 在 本 节 后 面 讨 论 。 

讨论 逐步 筛选 判别 分 析 方 法 将 依然 使 用 15.5 ЕНЕ 22 组 颅骨 的 例子 ,分析 
中 仍 将 北 亚 组 11 AMA ARER E І ЖЕ ДУ П) ЯП Ж ЧИА 10 组 颅骨 作为 两 个 
已 知 组 ,暂时 不 考虑 高 加 索 颅 骨 。 使 用 SPSS 程序 的 分 析 过 程 是 先 打 开 SPSS 判别 分 析 的 
主 对 话 窗口 ,输入 分 类 变量 和 根据 分 类 变量 的 取 值 选择 进入 分 析 阶 段 的 实体 (高 加 索 颅 
骨 不 进入 分 析 阶 段 ) ,全 部 21 项 测量 指标 作为 分 析 变 量 输入 ,这 与 执行 全 选 方法 的 判别 
分 析 过 程 一 致 。 在 主 对 话 框 中 选择 “Use stepwise method”, 这 时 对 话 框 中 “Method” 键 被 激 
活 。 在 “Method” 对 话 框 中 有 方法 栏 和 临界 值 栏 。 方 法 栏 内 可 选 的 方法 有 Wilk’s А, 未 能 
被 解释 的 方差 , 马 氏 距离 等 多 种 方法 ,SPSS 默认 的 是 Wilk”s 、 方 法。 临界 值 栏 内 可 选 的 
E FÉM F 的 概率 值 两 项 ,默认 的 是 F 值 ,变量 被 选取 和 移出 的 F 临界 值 分 别 规定 为 
3.84 和 2.71。 建 议 在 “Method” 对 话 框 中 接受 “Summary of steps ”选项 ,以 便 观察 每 步 的 执 
行 过 程 。 由 于 逐步 筛选 方法 最 终 选择 的 变量 数 少 ,有 可 能 用 Вох 方法 检验 总 体 间 协 方差 
的 一 致 性 ,因此 在 “Statistice” 对 话 框 中 可 选择 "Box в M”。“Classify” 对 话 框 中 的 各 选项 与 全 
选 模 型 是 相同 的 ,也 选择 两 组 的 先 验 概率 Р(С,) 相等 。 


15.6.2 SPSS 程序 执行 两 总 体 逐 步 筛 选 模 型 判别 分 析 的 输出 


1. 逐步 第 选 判别 分 析 程 序 的 输出 与 全 选 程序 相似 ,首先 也 是 汇总 并 列表 显示 输入 的 实 
体 数 目 、 用 于 判别 分 析 的 实体 数目 、 每 个 先 验 分 组 中 的 实体 数目 和 全 部 分 析 变 量 的 名 称 等 。 

2. 因为 要 求 作 Box 检验 ,程序 的 执行 将 输出 对 总 体 间 协 方差 一 致 性 的 Box 检验 结果 
(Ж 15-6)。 对 于 22 组 颅骨 的 实例 ,统计 量 Вох’ М = 18.335, 相应 的 检验 的 显著 性 水 
平 是 0.171。 由 此 在 显著 性 水 平 为 0.171 的 条 件 下 ,Box 检验 接受 关于 北 亚 和 东亚 两 组 上 
上 骨 数 据 ,其 总 体 的 协 方差 无 显著 差异 的 假设 。 


表 15-6 总 体 间 协 方差 一 致 性 的 Box's М 检验 


Box’s М 18.335 

Е Арргох. 1.406 
dfl 10 

ар 1683.537 

Sig. 0.171 


3. БРЖНІМ ANAE Wilk’ s А 值 ,选择 其 Wikk's 和 值 最 小 的 变量 进 
人 模型 ,因为 Wilk's 入 值 是 组 内 平方 和 与 总 平方 和 的 比值 。 身 奸 颅 骨 的 实例 中 额 宽 的 Wilk’ 
s 入 值 最 小 ,为 0.221 ,而 且 根 据 其 Wikk's 入 值 和 自由 度 , 计 算 所 得 的 了 F 值 等 于 66.87, 大 于 3. 
84( 见 表 15-7 MÆ 15-9) ,因此 变量 类 宽 首先 被 选 进入 模型 。 第 二 步 是 在 额 宽 已 选 的 条 件 下 ， 
再 计算 其 他 所 有 变量 的 мис А 值 ,变量 耳 上 颅 高 被 选 进入 模型 ,因为 其 Wikk's 入 值 最 小 为 
0.84, F > 3.84 。 这 样 一 步 步 选择 变量 ,相继 最 小 额 宽 和 齿 槽 点 角 被 选 。 当 第 四 步 齿 模 点 
角 被 选 后 ,其 他 变量 根据 Wikk's 入 值 计 算 的 下 值 均 小 于 3.84, 因 此 程序 执行 终止 。 此 外 在 程 
序 执行 中 每 个 新 变量 的 进入 ,会 改变 先进 入 模型 的 变量 的 Wilk's 和 值 和 FF 值 , 如 果 某 个 变量 
的 下 和 值 小 于 2.71, 则 该 变量 将 被 从 模型 中 风 除 。 在 本 例 中 没有 发 生 已 选 变 量 被 噜 除 的 情 
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况 。SPSS 程序 分 别 列表 ( 表 15-7, 表 15-8) 给 出 已 选 变量 和 未 选 变 量 的 容忍 度 , Wilk's А 值 和 
F 值 ,清楚 地 显示 每 一 步 当 一 个 新 变量 被 选 后 ,哪个 变量 应 被 继续 选 人 和 哪个 已 选 变 量 应 被 
剔除 。 鉴 于 未 选 变量 表 的 篇 幅 较 大 ,这 里 仅 列 出 变量 选择 的 第 三 步 , 即 当 烙 宽 , 耳 上 颅 高 和 
最 小 颅 宽 3 变量 已 被 选 后 ,其 他 18 个 未 被 选 变量 的 情况 ( 表 15-8). 

Ж157 逐步 筛选 判别 分 析 程 序 执行 过 程 中 各 步 被 选 的 分 析 变 量 表 


Step Tolerance Е to Remove Wilk’ s Lambda 

1 ыж 1.000 66.874 

2 ыж 0.645 82.060 0.464 
耳 上 颅 高 0.645 29.691 0.221 

3 ГЕ 0.574 37.530 0.128 
ЕК 0.432 48 .996 0.155 
最 小 颅 宽 0.666 18.583 0.084 

4 ыж 0.429 49.337 0.127 
FEMA 0.395 47 .652 0.124 
最 小 颅 宽 0.658 8.238 0.047 
齿 糟 点 角 0.690 4.467 0.040 


Ж 158° 逐步 筛选 判别 分 析 程 序 执行 过 程 第 3 步 后 未 被 选 的 分 析 变量 束 


Step Tolerance Min. Tolerance 了 to Enter Wilk’ з Lambda 
3 颅 长 0.727 0.431 0.437 0.039 
颅 宽 0.760 0.425 0.222 0.039 
颅 高 0.579 0.333 0.265 0.039 
上 面 高 0.898 0.392 0.194 0.039 
ян 0.759 0.392 0.310 0.039 
ыз 0.282 0.282 0.018 0.040 
ЕЖ 0.877 0.411 0.552 0.039 
ЕВ 0.802 0.349 0.199 0.039 
面 角 0.796 0.425 0.461 0.039 
йд 0.690 0.395 4.467 0.031 
Анай 0.778 0.377 0.625 0.038 
颅 指 数 0.918 0.427 0.254 0.039 
颅 长 高 指数 0.511 0.314 0.043 0.040 
颅 宽 高 指数 0.854 0.429 0.353 0.039 
中 上 面 角 0.653 0.358 0.003 0.040 
鼻 指 数 0.972 0.428 0.866 0.038 
IE Ji 0.899 0.414 0.175 0.039 
额 宽 指数 0.573 0.424 0.236 0.039 


由 表 15-8 可 见 ,在 18 个 未 选 变量 中 , 齿 槽 点 角 的 Wik 's 和》 值 最 小 ,而 且 其 了 值 为 
4.467, 大 于 被 选 临界 值 3.84。 因 此 齿 槽 点 角 应 作为 第 4 个 变量 被 选 人 模型 。 前 面 已 提 
到 , 当 变 量 齿 槽 点 角 进 和 人 模型 后 ,其 他 变量 都 不 符合 被 选 标准 ,逐步 筛选 过 程 结 束 。 

R 15-9 是 逐步 筛选 的 总 结 表 , 它 给 出 每 一 步 进 入 或 移出 的 变量 的 名 称 , 相 应 的 Wilk’s 
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入 值 和 FF 值 。 可 见 当 上 额 宽 等 4 个 变量 被 选 后 ,判别 函数 的 Wilk's 入 值 已 降低 到 0.031, 接 
近 零 。 在 表 15-9 中 我 们 保留 了 SPSS 程序 对 该 表格 的 注解 (英语 )。 


Ж159 逐步 筛选 判别 分 析 过 程 中 各 步 进入 或 移出 的 变量 
以 及 相应 的 Wilk’s 入 值 和 下 值 等 


Entered Wilk’s А 
Statistic ағ ар. ФЗ Exact F 
Step Statistic ап аб. бір. 
1 ын 0.221 1 1 19.0 66.874 1 19.0 0.000 
2 耳 上 颅 高 0.084 2 1 19.0 98.775 2 18.0 0.000 
3 最 小 额 宽 0.040 3 1 19.0 136.369 3 17.0 0.000 
4 йд 0.031 4 1 19.0 124.251 4 


16.0 0.000 


At each step, ће variable that minimizes ће overall Wilk’s Lambda із entered. 
a Maximum number of steps is 42. 

b Minimum partial F to enter is 3.84. 

c Maximum partial F to remove is 2.71. 

d F level, tolerance, or VIN insufficient for further computation . 


4. Ж 15-10 TIK RE Е НУ ЗЕ | h Э ЖП РЁ ОТУ) A ЖЕЖ, Wilk’ s à = 0.031,48), Œ 
著 性 水 平 很 高 ,可 见 两 判别 组 中 心 的 判别 得 分 值 差 别 显著 ,说明 判 别 函数 的 有 效 性 高 。 


$ 15-10 判别 函数 的 Wilk's 入 值 和 判别 函数 的 有 效 性 检验 


Test of Function(s) Wilk’s Lambda Chi-square df Sig. 
1 0.031 58.951 4 0.000 


5. Ж 15-11 和 表 15-12 分 别 给 出 标准 化 和 非 标准 化 的 判别 函数 系数 。 
Ж 1S-11 标准 化 判别 函数 系数 


Function 

1 
ЕЖ - 1.399 
耳 上 颅 高 0.730 
最 小 额 宽 1.348 
kaf -0.571 


Ж 15-12 ” 非 标 准 化 判别 函数 系数 


Function 

1 
ыж - 0.923 
= ЕМВ 0.535 
最 小 额 宽 0.607 
齿 槽 点 角 - 0.452 


( Constant) 5.359 
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由 此 非 标准 化 的 判别 函数 可 写成 

Е = 5.359 - 0.923(# 宽 ) + 0.535( 耳 上 颅 高 ) + 0.607( 最 小 额 宽 ) - 0.452( 齿 槽 点 角 ) 
(15-18) 

程序 还 输出 两 个 先 验 组 组 中 心 的 判别 得 分 分 别 为 5.055 和 - 5.560。 利 用 式 (15-18) 可 以 
计算 每 个 实体 的 判别 得 分 ,无 论 实体 是 否 进 入 分 析 阶 段 ,从 而 根据 它 离 哪 个 中 心 更 近 以 
判断 它 应 归 人 哪 组 。 

对 比 表 15-12 和 全 选 模型 中 的 结构 矩阵 ( 表 15-5) 可 见 ,逐步 科 选 方法 所 选 的 额 宽 等 4 
个 变量 都 是 在 全 选 模 型 的 结构 矩阵 中 排列 靠 前 的 ,而 且 是 与 区 分 北 亚 和 东亚 类 型 颅骨 的 
颜 宽度 和 颅 ` 面 高 度 等 特征 有 关 的 变量 。 这 表明 两 种 方法 的 共同 性 和 判别 分 析 结 果 的 稳 
定性 和 可 信 性 。 

б. 逐步 第 选 程序 输出 的 “Casewise Statistics" 表 , 显示 每 一 个 实体 的 原始 先 验 分 组 和 判 
别 归 组 ,其 判别 得 分 ,到 两 组 中 心 的 马 氏 距离 ,归属 到 各 组 的 概率 等 。 值 得 提出 的 是 无 论 
是 未 进行 验证 (Validation) 的 判别 分 析 和 进行 “Leave-one-out” 的 验证 ,逐步 筛选 判别 的 结果 
都 是 21 组 颅骨 的 先 验 分 组 和 判别 归 组 完全 一 致 ,判别 正确 率 都 是 100%。 这 说 明 对 于 所 
分 析 实 例 而 言 逐 步 选择 模型 比 全 选 模型 的 判别 有 效 性 更 高 ,尽管 逐步 选择 模型 仅 选 取 了 
额 宽 等 4 个 变量 进入 判别 函数 。 顺 便 指出 逐步 选择 方法 也 是 将 高 加 索 组 颅骨 归 人 东亚 
组 ,与 全 选 模型 的 判别 结果 一 致 。 


157 多 总 体 判 别 分 析 一 一 商 周 时 期 原始 瓷 的 产地 溯源 


本 章 前 面 关于 判别 分 析 的 原理 ,方法 讨论 以 及 实例 应 用 都 是 局 限于 两 个 总 体 的 情 
况 。 本 节 将 讨论 实体 群 分 别 来 自 3 个 或 3 个 以 上 的 总 体 , 即 实体 的 先 验 分 组 为 3 组 或 3 
组 以 上 情况 的 判别 分 析 。 前 两 节 讨论 的 两 总 体 判别 分 析 的 方法 基本 上 能 扩展 到 多 总 体 
的 情况 ,只 是 需要 注意 ;(1) 判 别 函数 的 数目 将 不 再 是 一 个 ,而 是 扩展 到 (+ - 1) 个 , 是 先 
验 分 组 的 数目 。(2) 每 个 判别 函数 所 能 解释 的 总 方差 的 百分比 是 不 一 样 的 ,因此 它们 在 判 
别 归 类 中 的 作用 不 等 。 对 实体 的 归 类 也 需 同时 考虑 几 个 判别 函数 。(3) 判 别 函 数 的 显 落 
性 检验 将 有 所 不 同 。(4) 归 类 结果 的 图 形 表示 方式 也 不 一 样 。 

下 面 将 通过 一 个 实际 例子 来 阐明 多 总 体 判 别 分 析 的 过 程 。 这 是 关于 商 周 时 期 原始 
次 产地 溯源 研究 的 例子 。 我 国 在 东汉 时 开始 生产 次 器 ,是 最 早生 产 瓷 器 的 国家 。 但 是 更 
早 在 商 代 , 在 江西 吴 城 ,湖北 荆 南 寺 、 河 南 郑 州 商城 ,小 双 桥 和 安阳 有 扔 墟 等 商 代 遗址 中 发 
现 了 原始 瓷器 的 残存 ,东汉 最 初 的 瓷器 生产 应 该 是 在 原始 瓷 生 产 技术 的 基础 上 发 展 而 成 
的 。 本 书 作者 等 (1997) 曾 用 中 子 活化 分 析 方 法 测量 了 上 述 商 代 遗 址 出 土 的 原始 瓷 片 的 化 
学 元 素 组 成 ,并 根据 这 些 原始 瓷 片 化 学 组 成 的 相似 性 和 其 他 考古 资料 ,提出 了 上 述 遗 址 
出 土 的 原始 次 ,很 可 能 都 是 吴 城 及 其 周 遍 地 区 生产 的 观点 。 随 后 本 书 作 者 (2003) 又 用 中 
子 活化 分 析 方 法 测量 了 浙江 黄梅 ,安徽 南陵 御 牛 山 和 清 阳 苍 圆 境 , 以 及 广东 博 罗 等 地 发 
现 的 商 周 时 期 的 原始 次 的 元 素 组 成 ( 见 表 15-28)。 这 里 我 们 将 用 判别 分 析 方 法 ,根据 原 
始 疙 样品 的 化 学 元 素 组 成 ,对 上 述 9 个 遗址 出 土 的 共 86 片 原始 瓷 片 作 判别 归 类 研究 。 研 
究 的 内 容 包 括 两 个 方面 :首先 将 吴 城 (20 片 ) ,黄梅 (8 片 ) , 特 牛 山 (6 片 ), 蔡 圆 境 (8 片 ) 和 
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博 罗 (11 片 ) 出 土 的 共 53 片 资 片 作为 5 个 先 验 组 ,根据 它们 的 元 素 组 成 建立 判别 函数 并 
进行 归 类 ,考察 妇 类 的 正确 率 有 多 高 。 这 5 个 地 点 的 原始 瓷 片 根据 考古 资料 应 该 是 当地 
生产 的 。 遗 址 名 后 的 括号 显示 该 遗址 被 测量 研究 的 原始 瓷 片 数 。 第 二 ,根据 第 一 步 建立 
的 判别 函数 对 荆 南 寺 (8 片 ) ,郑州 (10 片 ) ,小 双 桥 (4 片 ) 和 恋 越 三 期 以 前 (11 片 ) 的 共 33 
片 次 片 归 类 ,考察 归 类 结果 能 否 佐证 “这 四 个 地 点 出 土 的 原始 次 为 江西 吴 城 及 其 周 遍 地 
区 生产 "的 观点 。 共 86 HERR 19 个 元 素 含量 的 测量 数据 在 表 15-28 中 列 出 ( 因 该 表 篇 
幅 较 大 ,于 本 章 的 最 后 面 列 出 )。 判 别 分 析 选 取 了 АІ, Ва, Се, Cr, Cs, Eu, Ее, К, Іа, 
Мп, Ха, Sc, Th 和 U 等 共 14 个 元 素 ,其 他 元 素 因为 有 缺失 的 测量 数据 而 未 选 为 分 析 变 
量 。 下 面 使 用 SPSS 软件 先进 行 全 选 模型 的 判别 分 析 。 


15.7.1 全 选 模型 的 多 总 体 判别 分 析 


1. 对 于 86 片 原 始 次 首先 需要 建立 SPSS 数据 文件 , 它 包含 86 个 实体 ,每 个 实体 应 该 有 19 
个 变量 ,但 有 的 实体 的 某 些 变量 值 因 未 作 测量 而 缺失 , 故 选择 14 个 变量 作为 分 析 变 量 。(1) 打 
开 判 别 分 析 的 主 对 话 窗口 ,输入 分 类 变量 ,确定 吴 城 ,黄梅 , 特 牛 山 , 苍 圆 境 和 博 罗 等 5 组 为 先 
验 组 。 输 入 所 选取 的 14 个 元 素 为 分 析 变量 。 选 择 全 选 分 析 模式 , 即 全 部 14 个 变量 同时 进入 。 
(2) 在 “Statistic "窗口 选 一 元 方差 分 析 和 Box’s M。(3) 在 “Classify” 对 话 窗口 中 ,选择 各 组 的 先 验 
概率 P( G;) 相等 要 求 计算 和 输出 各 实体 的 判别 得 分 , 马 氏 距离 ,归属 组 别 的 概率 等 以 及 汇总 
表 , 选 择 使 用 组 内 协 方差 矩阵 作 分 析 , 要 求 输出 判别 结果 的 图 形 显 示 。 

这 里 对 先 验 概率 PG) 的 选择 说 明 如 下 :本 项 分 析 中 5 个 先 验 组 的 样本 容量 相差 较 
大 , 吴 城 组 有 20 片 瓷 片 ,其 他 4 个 遗址 的 盗 片 数 在 6 一 11 片 之 间 。 我 们 选择 各 组 的 PG) 
相等 如果 选 择 P( G;) 正比 于 样本 的 容量 ,其 后 果 必 然 是 增 大 每 个 实体 ,包括 未 进入 分 析 
阶段 的 实体 (如 荆 南 寺 、 郑 州 等 地 的 瓷 片 ) 归属 到 吴 城 组 的 概率 。 而 本 实例 研究 的 目的 之 
一 是 试图 佐证 研 南 寺 , 郑州 等 地 出 土 的 原始 次 为 江西 吴 城 地 区 生产 的 观点 , 从 而 选择 
Р(6;) 正比 于 样本 的 容量 ,扩大 实体 归属 到 吴 城 组 的 先 验 概率 显然 是 不 合适 的 。 

2. 程序 的 执行 输出 的 主要 内 容 如 下 

(1) 程序 首先 对 输入 的 实体 总 数 ,用 于 判别 分 析 的 实体 数目 ,每 个 先 验 分 组 中 的 实体 
数目 和 分 析 变量 的 名 称 作 汇总 ,并 列表 输出 。 因 为 用 户 要 求 对 每 个 变量 作 一 元 方差 分 
析 ,程序 输出 一 元 方差 分 析 的 结果 如 表 15-13。 


表 15-13 各 总 体 变量 的 均值 一 致 性 检验 


Wilk’s Lambda Е dfl df2 Sig. 
Al% 0.640 6.744 4 48 0.000 
Ва% 0.207 46.057 4 48 0.000 
СЕ 0.583 8.594 4 48 0.000 
CR 0.366 20.792 4 48 0.000 
CS 0.714 4.798 4 48 0.002 
ЕП 0.447 14.866 4 48 0.000 
Ке% 0.626 7.168 4 48 0.000 
K% 0.616 7.487 4 48 0.000 
ГА 0.550 9.836 4 48 0.000 
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续 表 
Wilk’ s Lambda F #1 #2 Sig. 
MN 0.516 11.278 4 48 0.000 
Na% 0.131 79.895 4 48 0.000 
5С 0.487 12.640 4 48 0.000 
TH 0.382 19.452 4 48 0.000 
U 0.345 22.750 4 48 0.000 


由 表 可 见 ,14 个 元 素 都 没有 通过 均值 一 致 性 检验 ,至 少 在 2 组 间 均 值 有 显著 差别 。 如 
果 某 个 变量 通过 均值 一 致 性 检验 , 它 就 不 具有 判别 功能 ,可 以 考虑 将 其 从 分 析 变 量 中 风 除 。 

(2) 各 组 方差 一 致 性 的 Вох'в М 检验 不 能 进行 ,因为 除 吴 城 组 外 ,其 他 4 组 的 实体 数 
目 太 少 , 均 低 于 变量 数 。 

(3) 程序 给 出 4 个 判别 函数 的 特征 值 ,如 表 15-14 所 示 。 


Ж 15-14 4 个 判别 函数 的 特征 值 表 


Function Eigenvalue % of Variance Cumulative % Canonical Correlation 
1 16.689 49.6 49.6 0.971 
2 11.370 33.8 83.4 0.959 
3 4.577 13.6 97.0 0.906 
4 1.021 3.0 100.0 0.711 


每 个 判别 函数 的 特征 值 是 实体 对 该 函数 判别 得 分 的 组 间 平 方 和 与 组 内 平方 和 的 比 
值 。 每 个 判别 函数 的 特征 值 被 所 有 特征 值 之 和 去 除 得 到 的 商 值 ,反映 该 判别 函数 所 能 解 
释 的 总 平方 和 的 百分比 ,也 是 度量 该 判别 函数 在 各 判别 函数 中 的 “权重 ”。 在 与 最 大 的 特 
征 值 对 应 的 特征 向 量 的 方向 上 ,各 组 的 中 心间 离散 最 大 ,与 第 二 大 特征 值 对 应 的 特征 向 
量 给 出 组 中 心间 离散 程度 次 大 的 方向 。 关 于 特征 值 和 特征 向 量 的 详细 情况 将 在 第 十 五 
章 讨论 主 成 分 分 析 时 介绍 。 表 15-14 中 各 判别 函数 是 根据 其 特征 值 的 大 小 的 次 序列 出 ， 
第 一 个 判别 函数 在 实体 判别 归 类 中 起 最 主要 的 作用 ,第 二 个 次 之 ,第 四 个 , 即 最 后 一 个 判 
别 函 数 在 实体 判别 中 的 作用 已 是 很 不 重要 的 了 。 表 中 最 后 一 列 是 典型 相关 系数 ,表征 判 
别 得 分 与 分 类 变量 间 的 相关 程度 。 

(4) Ж 15-15 是 程序 执行 给 出 的 Wilk's 4 值 表 ,是 对 各 组 判别 得 分 均值 的 一 致 性 检 
验 , 从 而 检验 判别 函数 的 有 效 性 。 表 题 下 面 第 一 行 中 的 “1 through 4” 表 示 4 个 判别 函数 共 
同 的 Wilk’s 4 值 , 它 是 4 个 判别 函数 单独 的 Wilk’ s 4 值 的 乘积 。 最 后 一 行 表示 单独 第 4 
个 判别 函数 的 W's 4 值 。Wilkk's 4 值 可 以 转换 成 x? 检验 , 表 中 4 个 检验 结果 的 显著 性 
水 平 值 均 小 于 0.01, 说 明 各 组 判别 得 分 均值 的 差别 ,包括 对 于 单独 第 4 个 判别 函数 各 组 
判别 得 分 均值 的 差别 都 是 显著 的 。 


Æ 15-15 Wilk’s Lambda Ж 


Test of Function(s) Wilk’ s Lambda Chi-square df Sig. 
1 through 4 0.000 331.940 56 0.000 
2 through 4 0.007 209.840 39 0.000 
3 through 4 0.089 102.941 24 0.000 


4 0.495 29.897 11 0.002 
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(5) Ж 15-16 和 表 15-17 是 标准 化 判别 函数 和 非 标准 化 判别 函数 的 系数 。 因 为 先 验 
组 的 数目 是 5 组 ,共有 4 个 判别 函数 。 前 面 (3) 中 已 经 说 明 , 对 于 实体 的 判别 归 类 , 仅 需 考 
谍 前 两 个 判别 函数 即 可 。 


Ж 15-16 标准 化 判别 画 数 系数 表 


Function 

1 2 3 4 
Al% -1.316 -0.335 0.444 0.617 
Ba% 0.595 0.332 -0.870 -0.355 
CE -1.423 -0.778 -0.229 -0.488 
CR -0.501 0.268 0.393 -0.198 
CS 0.420 0.775 0.157 -0.009 
EU 0.402 0.752 -0.551 0.923 
Ее% 0.273 0.199 0.206 0.264 
K% - 0.332 -0.435 0.073 0.207 
LA 1.090 -0.515 0.139 ~ 0.016 
MN 0.185 -0.247 0.259 -0.359 
Ма% 0.967 - 0.335 0.662 0.156 
5С 0.861 0.805 0.242 - 0.545 
TH 0.458 0.291 -0.608 0.650 
U - 0.623 - 0.289 -0.058 -0.739 

Ж 15-17 非 标 准 化 判别 函数 系数 表 
Function 

1 2 3 4 
А1% -1.015 – 0.258 0.342 0.475 
ВаФ 73.076 40.782 - 106.727 -43.596 
СЕ - 0.098 - 0.054 -0.016 ~ 0.034 
CR - 0.023 0.013 0.018 ~0.009 
CS 0.088 0.162 0.033 -0.002 
EU 1.051 1.965 -1.439 2.412 
Fe% 0.459 0.335 0.346 0.443 
K% - 1.033 -1.353 0.229 0.644 
LA 0.121 - 0.057 0.015 -0.002 
МУ 0.003 - 0.004 0.004 - 0.006 
Ма% 5.602 - 1.940 3.832 0.902 
5С 0.453 0.424 0.128 -0.287 
ТН 0.101 0.064 -0.135 0.144 
U -0.531 -0.247 - 0.049 -0.630 
(Constant) -0.106 0.275 1.005 0.782 


利用 表 15-16 和 表 15-17 中 的 系数 可 以 计算 每 个 实体 的 4 个 判别 得 分 值 和 各 组 中 心 
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的 判别 得 分 值 。 表 15-18 列 出 每 组 组 中 心 的 4 个 判别 得 分 值 , 是 组 中 心 在 非 标准 化 判别 
函数 空间 中 的 坐标 位 置 。 
表 15-18 5 个 判别 组 中 心 位 置 的 判别 得 分 (根据 非 标准 化 判别 函数 计算 ) 


Function 
Predicted Group for Analysis 1 1 2 3 4 
1 0.139 3.792 0.931 0.200 
2 6.085 -0.959 -3.488 0.374 
3 0.722 -1.442 0.422 -2.643 
4 2.007 - 5.071 3.066 0.741 
5 - 6.531 -1.723 -1.617 0.268 


(6) 程序 输出 的 “Casewise Statistics” R, 显示 每 一 个 实体 的 原始 先 验 分 组 和 最 大 可 能 和 次 
大 可 能 的 判别 归 组 ,4 个 判别 函数 的 得 分 , 离 最 可 能 和 次 可 能 组 中 心 的 马 氏 距离 ,归属 到 最 可 能 
和 次 可 能 组 的 概率 等 。“Casewise Statistics" 表 所 占 篇 幅 甚大 ,这 里 不 可 能 予以 列 出 。 从 “Case- 
wise Statistics” 表 可 知 , 只 有 本 属于 葵 圆 境 的 #36 号 实体 被 误 判 ,被 归 人 特 牛 山 组 ,总 判 对 率 为 


Z =98.1% 。 该 表 也 显示 用 “leave-one-out" 方 法 的 验证 结果 , 除 # 36 号 实体 外 ,还 有 属于 吴 城 的 


#86 ЯП #137 号 实体 也 被 误 判 ,分 别 被 归 人 特 牛 出 组 和 博 罗 组 ,总 判 对 率 为 94.3% “Casewise 
Statistics” 表 也 列 出 未 进入 分 析 阶 段 的 实体 的 归 类 结果 。 对 于 未 进入 分 析 阶 段 的 者 南 寺 ,郑州 ， 
小 双 桥 和 早 于 般 墟 四 期 的 33 片 瓷 片 的 归 类 结果 是 , 除 郑州 的 #66 和 #69 号 实体 被 判别 归 入 御 
牛山 组 外 ERK 31 片 原始 瓷 片 均 归 入 吴 城 组 。 因 此 根据 次 片 的 元 素 组 成 进行 的 判别 分 析 支 
持 “ 荆 南 寺 ,郑州 ,小 双 桥 和 有 拒 墟 四 期 以 前 的 原始 次 可 能 是 吴 城 及 其 周边 地 区 生产 ”的 观点 。 当 
然 支持 并 不 是 证 明 ,判别 分 析 的 结果 仅 表 明 , 在 吴 城 ,黄梅 , 御 牛 山 , 苍 圆 境 和 博 罗 等 5 个 原始 
瓷 产地 中 , 荆 南 寺 等 四 地 的 原始 瓷 在 元 素 组 成 方面 更 接近 吴 城 。 

0) 判 别 分 析 的 结果 也 可 以 用 图 形 表 示 ,图 15-3 是 53 个 实体 以 第 一 、 第 二 判别 函数 


15-3” 吴 城 等 5 地 53 片 瓷 


片 以 第 一 ,第 二 判 
别 西 数 为 坐标 轴 的 
Ж 散 点 图 (全 选 模型 ) 
БЕ 
i “ 博 罗 
ж om 
* 御 牛山 
0 黄梅 册 
o Бый 


第 一 判别 函数 
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为 轴 的 散 点 图 。 第 一 和 第 二 判别 函数 的 贡献 已 占 总 方差 的 84.3%。 图 中 显示 各 组 实体 
闻 的 良好 分 离 ,唯一 的 例外 是 第 四 组 营 圆 境 的 #36 号 实体 , 它 处 于 第 三 组 御 和 牛山 实 体 的 
范围 中 。 

图 15-4 称 为 区 域 图 ,与 图 15-3 相同 也 是 仅 考 虑 第 一 和 第 二 判别 函数 。 平 面 被 分 成 $ 
个 区 域 ,对 应 于 5 个 判别 分 类 。 每 个 实体 根据 它 的 第 一 和 第 二 判别 函数 的 得 分 决定 它 处 
在 哪 一 个 区 域 , 即 轨 人 哪 一 组 。 图 上 的 数字 表示 组 号 ,每 组 的 中 心 用 “ * "符号 表示 。 


第 二 判别 函数 
-120 -80 -4.0 .0 4.0 8.0 
1 511 122 | 
80+ 551 12 + 
1 51 112 | 
1 511 122 { 
1 551 12 | 
1 51 112 | 
І 511 吴 城 122 | 
404 551 * 12 + 
1 511 112 І 
|] 551 122 1 
1 51 12 1 
| 511 112 | 
1 551 111111111111122 І 
04 511133333333333332 + 
| 5333 о xx 黄梅 山 | 
і 53 * 32 [ 
1 ЕЕ» зз ЖИ ЕШ 32 | 
1 53 332 І 
I 53 333334442 | 
-4.04 53 333344444 422 + 
І 5333334444 4422 | 
1 544444 х 4422 | 
| ә БЫ 4, | 
| 54 4422 l 
-80% 54 е 4 
І 54 422 | 
| 54 4422 | 
十 一 
-120 80 -40 0 40 80 
第 一 判别 函数 
* 组 中 心 位 置 
154 吴 城 等 5 地 53 片 瓷 片 多 总 体 判别 分 
析 的 区 域 图 (全 选 模型 ) 


(8) 原始 分 析 变 量 对 各 判别 函数 贡献 的 表达 ,与 前 述 的 两 总 体 情 况 相似 ,也 是 通过 结 
构 和 矩阵 来 显示 ( 表 15-19)。 结 构 矩 阵 记 录 各 判别 葬 数 与 分 析 变 量 间 的 组 内 相关 系数 的 计 
权 平 均值 。 
Ф 15-19 ”结构 矩阵 


Function 
1 2 3 4 
TH -0.276* -0.091 -0.226 0.153 
U -0.246* – 0.240 -0.221 - 0.048 
Ма% 0.454 -0.494" 0.303 0.132 
CR ~ 0.057 0.365 * 0.148 - 0.255 
SC -0.053 0.292* - 0.002 -0.189 
K% 0.080 - 0.194” - 0.108 0.190 
Ке% 0.083 0.181* 0.154 ~ 0.056 


CS -0.099 0.131* – 0.072 0.128 
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ж 
Function 
1 2 3 4 

Ba% 0.408 - 0.103 – 0.432* -0.279 

LA -0.036 = 0.101. – 0.385 * 0.053 

ЕП 0.158 0.116 -0.363* 0.260 

СЕ -0.050 -0.127 - 0.322" -0.127 
MN 0.213 - 0.046 0.020 - 0.391" 
Al% -0.166 -0.065 -0.047 0.2” 


“x "表示 每 行 中 绝对 值 最 大 的 元 素 ,每 列 带 “ x "的 元 素 按 绝对 值 大 小 次 序 排列 


由 结构 和 矩阵 可 见 ,Th, U, Na 和 Ва 对 第 一 判别 函数 起 主要 作用 。 对 第 二 判别 函数 贡 
献 大 的 元 素 较 多 ,有 碱 金属 Na, К, Cs, 以 及 Cr, 5с, Fe 等 。3 个 稀土 元 素 和 Ba 对 第 三 判 
别 函数 贡献 较 大 。 而 过 度 元 素 Mn, Cr,Al 和 稀土 Eu 等 对 第 四 判别 函数 影响 较 大 。 


15.7.2 逐步 筛选 模型 的 多 总 体 判 别 分 析 


多 总 体 情况 下 逐步 筛选 变量 判别 分 析 方 法 的 讨论 仍 将 通过 15.7.1 节 中 原始 次 的 例 
子 来 进行 ,同样 使 用 SPSS 程序 。 因 为 在 15. 6 节 两 总 体 逐 步 筛选 判别 分 析 中 对 于 逐步 筛 
选 变量 的 判别 过 程 已 作 了 阐述 ,因此 本 节 中 不 予 重复 , 仅 对 与 多 总 体 有 关 的 问题 作 说 明 。 

1. 分 类 变量 和 分 析 变 量 的 输入 同 15.7.1 节 的 全 选 模 型 ,但 判别 分 析 的 主 对 话 框 中 
选 逐步 筛选 方法 。 与 15. 6 节 两 总 体 逐 步 筛 选 判 别 分 析 过 程 相同 ,在 “Method ”对话 框 中 
选 SPSS 程序 默认 的 Wilk's 入 方法 ,上 标准 和 了 临界 值 。“Ciassify ”对话 框 中 的 选项 也 与 前 
E 15.7.1 节 的 全 选 模型 的 选项 一 致 。 

2. 程序 执行 的 输出 结果 概要 说 明 如 下 : 

(1) 关于 各 组 所 属 总 体 的 协 方差 一 致 性 检验 。 因 为 对 于 本 项 实例 ,逐步 筛选 方法 最 
终 从 14 个 分 析 变量 中 仅 选 择 了 7 个 ,进入 模型 的 分 析 变 量 的 数目 少 了 ,Box's М 检验 得 以 
进行 。 其 结果 如 表 15-20 所 示 。 但 是 各 总 体 协 方差 一 致 性 的 假设 未 能 被 接受 。 


Ж 15-20 总 体 协 方差 一 致 性 的 Box's M 检验 


Box’s М 372.982 

F Approx. 2.742 
dfl 84 

df2 1979 .774 

Sig. 0.000 


(2) 变量 的 筛选 过 程 。 根 据 选 定 的 Wiks УКЕ УА, ЗЕЕ Н) a E Aae 
应 的 Wilk's 入 值 和 F 值 总 结 列 于 表 15-21。 当 执行 了 第 七 步 的 筛选 ,变量 Al 进入 模型 后 ， 
剩 下 的 7 个 变量 的 了 值 均 小 于 3.84 ,程序 执行 终止 。 每 步 筛选 后 的 已 进入 和 未 进入 变量 
的 容忍 度 , Wilk's 和 值 和 了 FF 值 表 , 鉴 于 篇 幅 这 里 未 耶 列 出 ,它们 与 表 15-7 和 表 15-8 是 相 
似 的 。 
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Ж 15-21 多 总 体 逐 步 筛 选 模型 过 程 中 变量 的 进入 和 移出 


Entered Wilk’s Lambda Exact F 
Step Statistic dfl ар. ФЗ Statistic dfl df2 Sig. 

1 Na% 0.131 1 4 48.0 79.895 4 48.0 0.000 
2 Ba% 0.036 2 4 48.0 50.413 8 94.0 0.000 

Approxim 

Е Statistic 
3 U 0.012 3 4 48.0 43.858 12 121.9 0.000 
4 5С 0.007 4 4 48.0 35.503 16 138.1 0.000 
5 ЕП 0.004 5 4 48.0 31.381 20 146.8 0.000 
6 СЕ 0.002 6 4 48.0 30.699 24 151.2 0.000 
7 А1% 0.001 7 4 48.0 28.422 28 152.8 0.000 


At each step, Ше variable that minimizes the overall Wilks’ Lambda із entered. 


(3) 判别 函数 的 特征 值 和 判别 分 组 的 均值 一 致 性 检验 。 这 分 别 由 表 15-22 ЯП Ж 15-23 
列 出 。 由 表 15-23 可 见 各 判别 组 问 实体 平均 判别 得 分 的 差异 是 显著 的 。 


Ж 15-22 四 个 判别 函数 的 特征 值 和 它们 的 相对 贡献 


Function Eigenvalue % of Variance Cumulative % Canonical Correlation 
1 11.003 49.5 49.5 0.957 
2 7.107 32.0 81.5 0.936 
3 3.451 15.5 97.0 0.881 
4 0.667 3.0 100.0 0.633 


Ж 15-23 ”判别 分 组 的 均值 一 致 性 检验 


Test of Function(s) Wilk’s Lambda Chi-square df Sig. 
1 through 4 0.001 302.781 28 0.000 
2 through 4 0.017 188.463 18 0.000 
3 through 4 0.135 92.196 10 0.000 
4 0.600 23.514 4 0.000 


(4) 标准 化 和 非 标准 化 的 判别 函数 系数 。 表 15-24 和 表 15-25 分 别 列 出 标准 化 和 非 
标准 化 的 判别 函数 系数 ,后 者 有 一 个 常数 项 。 根 据 表 15-24 或 者 表 15-25 中 的 系数 建立 四 
个 判别 函数 ,并 依 此 可 计算 每 个 实体 的 四 个 判别 得 分 ,其 中 前 2 个 函数 对 解释 总 方差 的 
贡献 为 81.5%。 表 15-26 给 出 各 判别 组 中 心 的 4 个 非 标准 化 判别 函数 的 得 分 值 。 


Ж 15-24 标准 化 判别 函数 系数 


Function 
1 2 3 4 
Al% - 0.603 0.274 - 0.486 ~ 0.826 
Ва% 0.721 – 0.141 0.655 0.408 
СЕ - 0.848 0.892 0.306 0.513 


ЕП 0.504 - 0.477 0.499 -1.112 
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续 表 
Function 

Ма% 0.555 0.599 - 0.614 - 0.005 

5С 0.550 - 0.942 - 0.591 0.801 
U - 0.280 0.177 0.621 0.260 

Ж 15-25 ” 非 标准 化 判别 函数 系数 
Function 
1 2 3 4 
А1% - 0.465 0.211 -0.375 - 0.637 
Ва% 88.507 - 17.306 80.395 50.062 
СЕ - 0.059 0.062 0.021 0.036 
EU 1.318 -1.246 1.304 - 2.906 
Na% 3.213 3.469 -3.556 = 0.027 
5С 0.289 ~ 0.496 – 0.311 0.422 
U - 0.238 0.151 0.530 0.222 
(Constant) - 0.690 - 0.699 — 1.452 — 2.246 
Ж 15-26 各 判别 组 中 心 的 判别 得 分 
Function 

Predicted Group 1 2 3 4 
1 0.446 -2.877 - 0.973 - 0.158 
2 4.673 0.863 3.037 -0.471 
3 0.755 0.920 0.201 2.147 
4 1.225 4.413 - 2.580 - 0.438 
5 -5.511 0.891 1.328 - 0.224 


(5) 原始 分 析 变 量 对 判别 函数 的 贡献 。SPSS 程序 还 输出 显示 反映 判别 得 分 与 原始 
分 析 变 量 间 组 内 相关 系数 计 权 平均 值 的 结构 矩阵 ( 表 15-27) 。 未 被 选 , 即 未 用 作 分 析 的 
变量 同样 列 和 人 表 中 ,但 用 上 标 “a” 注 明 。 对 4 个 判别 函数 贡献 大 的 元 素 分 别 是 (U, Na， 
Ва), (Na,Sc) ,(Ba,Ce,Eu),(Eu,Al) 与 全 选 模型 的 结构 矩阵 的 情况 接近 。 


表 15-27 ”结构 和 矩阵 
Function 
1 2 3 4 
ТН“ -0.421% 0.193 0.083 0.058 
U - 0.326* 0.258 0.270 0.073 
СӨ -0.264” 0.206 0.245 -0.079 
Na% 0.517 0.698 * – 0.270 - 0.073 
5С - 0.038 -0.377* - 0.024 0.196 
К%* 0.052 0.308 * 0.261 – 0.014 
С" 0.217 – 0.281* – 0.008 0.061 
Ва% 0.488 0.157 0.544 * 0.175 


ША" -0.173 - 0.063 0.468“ — 0.228 
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续 表 
Function 
1 2 3 4 

СЕ - 0.076 0.135 0.387* 0.094 
EU 0.196 -0.139 0.395 – 0.462* 
Реф – 0.074 – 0.167 – 0.050 0.348 * 
А1% -0.212 0.060 0.041 -0.231% 
MN’ 0.112 0.008 0.158 0.205 * 


“x ”表示 每 行 中 绝对 值 最 大 的 元 素 , 每 列 带 “ * ”的 元 素 按 绝对 值 大 小 次 序 排列 。 上 标 “a” 表示 该 变 
量 未 被 选中 ,未 进入 分 析 阶 段 。 


(6) 归 类 结果 汇总 也 由 “Casewise Statistics" 表 列 出 。 显 示 每 个 实体 的 原始 先 验 分 组 和 
最 大 可 能 和 次 大 可 能 的 判别 归 组 ,4 个 判别 函数 的 得 分 , 离 最 可 能 组 和 次 可 能 组 中 心 的 马 
КЕШ, ,归属 到 最 可 能 和 次 可 能 组 的 概率 等 内 容 。 同 样 因 所 占 篇 幅 过 大 ,该 表 未 予 列 出 。 
无 论 是 否 进行 “Leave-one-out" 验 证 的 判别 分 析 ,都 是 2 个 资 片 被 误 判 。 未 作 验 证 的 判别 分 
析 中 , 吴 城 的 # 137 瓷 片 和 苍 圆 境 的 #36 АЗЕЛЯ ШІН. “Теахе-опе-ош” 89 
证 的 归 类 中 , 吴 城 的 # 137 瓷 片 仍 归 类 入 御 牛 山 组 而 苍 圆 境 的 #36 瓷 片 被 归 类 入 吴 城 组 。 
两 种 情况 下 判别 归 类 正确 率 均 为 96.2% 

图 15-5 是 以 第 一 和 第 二 判别 函数 为 坐标 轴 的 53 片 资 片 的 散 点 图 ,图 中 除 显示 各 组 
的 良好 分 离 外 ,也 标 出 被 误 判 的 实体 在 图 上 的 位 置 。 

对 出 自 荆 南 寺 ,郑州 ,小 双 桥 和 有 恋 墟 早 于 四 期 的 33 片 未 参与 分 析 的 次 片 的 归 类 结果 
是 ,它们 全 部 归 类 进入 吴 城 组 , 比 全 选 模型 更 接近 期 望 结 果 。 图 15-6 除 列 出 吴 城 等 5 地 
53 片 参与 分 析 的 瓷 片 外 ,同时 将 出 自 荆 南 寺 、 郑 州 等 地 的 33 片 未 参与 分 析 的 瓷 片 也 显示 
在 图 中 。 可 以 见 到 这 зз 片 瓷 片 在 图 中 的 位 置 与 吴 城 瓷 片 的 分 布 区 域 最 相符 合 。 无 论 是 
全 选 模 型 或 逐步 第 选 变 量 模 型 ,根据 元 素 组 成 进行 的 判别 分 析 都 支持 “ 荆 南 寺 , 郑 州 , 小 
双 桥 和 庚 墟 早 于 四 期 的 原始 次 可 能 是 吴 城 及 其 周边 地 区 生产 "的 观点 。 


图 15-5 吴 城 等 5 地 53 片 资 
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图 15-6 全 部 86 片 资 片 以 
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15.8 人工 神经 网 络 方法 应 用 于 实体 的 归 类 简介 : 
以 我 国 新 石器 陶器 的 归 类 为 例 


1999 年 Ma( 马 清 林 ) 等 在 我 国 首 先 利 用 人 工 神 经 网 络 方法 (artificial neural networks, f 
称 ANN) 对 我 国 新 石器 时 代 黄 河流 域 ,长 江 流域 和 南方 地 区 陶器 进行 归 类 研究 。 本 节 将 
简要 介绍 人 工 神 经 网 络 方法 应 用 于 实体 归 类 的 基本 原理 和 计算 方法 。 

人 工 神 经 网 络 是 模拟 动物 大 脑 神 经 网 络 的 结构 和 行为 而 发 展 的 一 种 计算 方法 。 神 
经 网 络 是 由 许多 个 非 线性 单元 组 成 , 称 为 神经 元 或 节点 。 神 经 元 具有 接受 、 学习、 加 工 、 
记忆 和 传递 信息 的 功能 ,它们 决定 了 网 络 的 行为 。1943 年 美国 的 神经 物理 学 家 McCulloh 
和 数学 家 Pitts 首先 提出 了 神经 元 机 理 的 数学 模型 。 人 工 神 经 网 络 方法 的 真正 发 展 是 
1982 年 Hopfield 提出 离散 神经 网 络 模型 和 稍 后 的 连续 神经 网 络 模型 ,以 及 1986 年 Rumel- 
hat 发 展 了 多 层次 网 络 和 误差 反 传 的 网 络 计算 方法 以 后 , 它 已 成 为 对 信息 认识 、 模 型 建立 
和 预测 等 应 用 智能 的 一 门 边缘 学 科 , 特 别 适 用 于 非 线性 的 和 无 明确 数学 表达 式 的 体系 。 
ANN 已 在 化 学 学 科 中 得 到 广泛 的 应 用 ,例如 模式 识别 .各 种 谱 图 的 分 析 、 流 程 的 实时 控 
制 、 蛋 白质 结构 的 预测 等 。 

马 清 林 等 用 ANN 于 陶器 归 类 的 工作 属于 模式 识别 。 马 等 工作 的 原始 数据 是 我 国 新 
石器 时 代 黄 河流 域 ,长 江 流域 和 南方 地 区 三 地 共 77 片 陶 片 的 9 个 主 次 量 元 素 氧 化 物 的 百 
分 含量 ,他们 的 研究 目标 是 建立 一 个 神经 网 络 , 这 个 网 络 通过 学 习 能 对 未 知 产地 的 隐 片 
进行 识别 ,判别 它 应 属于 3 类 陶 片 中 的 哪 一 类 。 

下 面 通过 他 们 的 工作 来 说 明 AN 中 误差 反 传 多 层 网 络 的 工作 原理 。 这 个 网 络 中 神 
经 元 分 为 3 层 , 分 别 是 输入 层 、 隐 项 层 和 输出 层 。 因 为 每 片 陶 睛 被 9 个 元 素 含量 所 描述 ， 
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输入 层 相 应 有 9 个 神经 元 ,或 节点 。 马 等 的 文章 中 未 说 明 隐 酸 层 所 含 神经 元 的 数目 。 一 
般 情况 下 ,如果 隐 酸 层 的 节点 太 少 ,模型 难以 正确 地 和 传输 处 理 信息 ,如 果 节 点 太 多 ,可 能 
会 导致 训练 过 度 。 在 实际 工作 中 可 以 通过 试验 来 确定 隐藏 层 节点 的 数目 ,为 讨论 方便 ， 
我 们 假设 隐蔽 层 的 节点 数 为 hB 3 层 是 输出 层 有 р 个 节点 ,在 新 石器 陶器 的 例子 中 是 3 
个 节点 ,分别 代 表 黄 河流 域 ,长 江 流域 和 南方 三 地 的 陶器 。 各 层 的 节点 间 通 过 “神经 ” 相 
互联 系 。 

各 层 神 经 元 之 间 连 接 的 网 络 如 图 15-7 所 示 ,网 络 的 建立 是 通过 它 本 身 的 训练 和 学 习 
来 完成 的 。 网 络 的 学 习 和 信和 号 传递 的 过 程 是 这 样 的 。(1) 将 n 个 已 知 类 属 的 实体 的 m 个 
ЖЕМЕ (ху, x,… х„) 依次 (或 一 起 ) 输入 到 输入 层 的 m 个 节点 ,对 于 新 石器 陶器 的 例子 т 
= 9o(2)m 个 信号 加 以 不 同 的 权 经 “神经 ”传递 给 隐蔽 层 的 诸 神 经 元 。 对 于 隐蔽 层 的 第 j 个 


神经 元 ,输入 信号 是 m 个 信号 的 加 权 和 = 》) оту + 1 x Р m 是 输入 层 第 ; 节点 


传输 信号 到 隐藏 层 的 第 ) 个 节点 的 权 , 反 映 两 层 的 一 对 神经 元 之 间 的 联系 强度 。 式 中 加 了 
一 个 偏 置 量 b AER b 的 引信 有 利于 模型 的 求解 ,这 个 公式 也 可 以 看 成 信号 向 量 x = 
(aisar ws1) 和 权重 向 量 w = (шшен Бу) 间 的 点 积 。(3) 隐蔽 层 的 每 个 节点 
对 输入 信号 (如 果 超 过 一 定 的 阅 ) 进行 “加 工 ”, 又 把 “加 工 ” 后 的 信号 加 权 传 递 到 输出 层 
的 各 节点 。“ 加 工 ” 或 转换 信号 的 函数 很 多 , 常用 的 转换 函数 有 sigmoid BA: Т, = 


一 一 上 一 一。 这 个 函数 把 输出 信号 限定 在 0 与 1 之 间 , 而 且 能 处 理 非 线 性 模型 。(4) 输 
1+ ехр( - 2) 

出 层 的 每 个 节点 (新 石器 陶器 的 例子 中 是 3 个 节点 ) 接 受到 h 个 信号 后 ,同样 计 权 加 和 
(也 是 隐 项 层 输出 的 信号 向 量 和 反映 隐蔽 层 节点 和 输出 层 的 神经 元 间 联 系 强度 的 权重 向 
量 间 的 点 积 ) ,再 用 sigmoid 函数 转换 后 输出 。 这 就 是 网 络 输出 О,(Е = 1,2, p) (5) 下 
一 步 是 对 网 络 输出 结果 与 期 望 值 0 作 比 较 。 期 望 值 可 以 这 样 定义 :如 果 输 入 端 输 入 的 是 
黄河 流域 的 陶 片 ,那么 要 求 黄河 流域 陶 片 输出 节点 的 网 络 输出 结果 接近 1 ,而 长 江 流域 和 
南方 陶 片 节点 的 网 络 输出 结果 接近 0。 如 果 输 入 端 输入 的 是 长 江 流 域 的 陶 片 ,那么 要 求 对 
应 长 江 流域 陶 片 输出 节点 的 网 络 输出 结果 接近 1, 而 其 他 2 个 输出 节点 的 输出 接近 0. (6) 
网 络 的 学 习 规 则 经 常 这 样 规定 , 要 求实 际 输出 值 和 期 望 值 之 间 差 值 的 平方 和 最 小 , 即 


Уо, - 0 ) = mino 所 谓 学 习 就 是 不 断 地 进行 选 代 计 算 ,调整 两 组 权重 向 量 , 即 不 断 改 


变 诸 м, 和 wi 值 。 如 果 选 代 过 程 收敛 ,就 完成 了 网 络 的 建立 。 可 以 使 用 相应 版 本 的 
MATHLAB 软件 执行 人 工 神 经 网 络 方法 。 

马 等 掌握 有 三 地 区 的 陶 片 共 77 片 ,他们 从 77 片 陶 片 中 选 了 49 片 的 数据 作为 已 知 数 
据 输 入 第 一 层 ,用 “误差 反 传 学 习 方 法 "来 训练 网 络 。 经 过 上 千 次 地 改变 权重 值 ,使 得 第 
三 层 的 输出 结果 与 已 知 的 分 类 结果 之 间 尽 量 接 近 。 这 个 过 程 就 是 上 述 的 人 工 神经 网 络 
的 学 习 过 程 。 经 过 训练 的 网 络 对 剩 下 的 28 片 陶 片 归 类 , 马 等 报道 归 类 的 符合 率 达 96%. 
马 等 还 用 该 网 络 对 24 片 采 自 甘肃 的 新 石器 时 代 陶 片 归 类 ,它们 全 部 被 正确 地 归 到 黄河 
流域 组 。 马 等 也 用 了 主 成 分 分 析 方法 对 这 批 陶 片 进行 了 分 类 ,并 认为 在 古 陶 次 分 类 研究 
中 人 工 神 经 网 络 方法 更 为 合适 。 当 然 对 此 可 以 有 不 同 的 看 法 ,但 马 等 的 工作 是 很 有 意义 
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157 多 层 反 传 网 络 结构 示意 图 


的 尝试 ,是 在 我 国定 量 考古 研究 中 第 一 次 应 用 人 工 神经 网 络 方法 。 

人 工 神经 网 络 和 判别 分 析 都 属于 对 实体 进行 归 类 的 多 元 分 析 方 法 。 人 工 神经 网 络 
适用 于 非 线 性 体系 和 无 明确 数学 表达 式 的 体系 ,因此 其 应 用 面 比 判别 分 析 广 泛 。 判 别 分 
析 一 般 是 建立 线性 的 判别 函数 (原则 上 也 可 以 用 二 次 多 项 式 或 其 他 形式 的 函数 ,但 这 方 
面 尚 研究 不 够 和 不 易 得 到 通用 的 软件 ) ,但 判别 分 析 的 优点 是 能 清楚 揭示 各 原始 变量 在 
实体 归 类 中 的 作用 。 在 考古 实体 的 归 类 研究 中 ,这 两 种 方法 应 该 是 互补 的 。 但 是 不 论 使 
用 哪 种 方法 ,已 知 类 属 的 实体 的 数目 均 必 须 足够 多 ,使 得 模型 能 受到 “良好 ”的 训练 。 例 
如 为 了 建立 某 个 神经 网 络 模型 ,至 少 需要 计算 确定 (тох h + hx k) 个 权重 的 值 ,显然 已 
知 类 属 的 实体 的 数目 太 少 (原始 数据 的 变量 数值 为 n x mT) ,建立 的 模型 将 是 不 稳定 ， 
不 可 靠 的 。 可 惜 在 我 国 个 别 应 用 人 工 神经 网 络 方法 于 科技 考古 资料 分 析 的 文章 中 没有 
对 这 个 问题 予以 应 有 的 注意 , 仅 使 用 很 少数 量 已 知 类 属 的 实体 去 训练 网 络 模型 ,研究 结 
论 的 可 靠 性 是 受到 怀疑 的 。 对 于 人 工 神经 网 络 感 兴 趣 的 读者 可 阅读 罗 立 强 等 (1997) 的 综 
述 , 从 该 文中 还 可 了 解 到 其 他 有 关 的 文献 。 
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第 十 六 章 ”多 元 数据 的 降 维和 主 成 分 分 析 


本 章 将 介绍 应 用 主 成 分 分 析 方法 于 多 元 数据 的 降 维 。 当 观测 数据 中 有 很 多 个 实体 ， 
而 每 个 实体 又 被 很 多 个 变量 所 描述 时 ,直观 上 是 很 难 从 庞大 烦琐 的 数据 中 观察 到 其 中 的 
现象 和 规律 的 。 在 第 十 四 十 五 章 曾 处 理 了 22 组 颅骨 21 个 测量 指标 的 数据 组 和 53 片 商 
局 原始 奖 片 的 14 种 元 素 含量 的 数据 组 。 对 于 这 类 复杂 的 多 元 数据 ,不 易 直 观 地 对 实体 
进行 分 类 和 排序 。 在 第 十 四 章 中 曾 利用 实体 间 的 相似 系数 来 对 实体 进行 聚 类 。 但 是 使 
用 相似 系数 会 丢失 很 多 有 意义 的 信息 ,例如 难以 了 解 各 个 变量 在 实体 分 类 中 所 起 的 作 
用 ,也 不 能 分 析 变 量 之 间或 实体 之 间 的 相关 关系 。 第 十 五 章 在 讨论 判别 分 析 时 ,实体 的 
先 验 分 类 是 已 知 的 ,判别 分 析 仅 是 根据 对 各 实体 的 观测 值 来 检验 实体 的 先 验 分 类 是 否 符 
合 数据 本 身 的 结构 ,这 并 不 是 真正 意义 上 根据 实体 的 属性 对 它们 进行 排序 和 分 类 。 

男 一 方面 在 第 九 章 中 我 们 曾 见 到 , 当 实 体 仅 被 2 个 数值 型 变量 所 描述 时 ,实体 对 于 
其 两 个 变量 的 分 布 情况 可 以 用 二 维 平面 上 的 散 点 图 来 表述 。 散 点 图 能 够 非常 直观 地 显 
示 出 数据 的 结构 , 即 实体 分 布 的 规律 。 如 果 各 实体 点 在 图 上 基本 上 按 一 条 曲线 排列 , 那 
么 这 条 曲线 给 出 了 实体 排序 的 次 序 ,例如 在 图 9-1b 上 代表 一 些 瓷 片 的 点 可 以 按照 瓷 片 中 
钾 含 量 的 高 低 来 排序 。 如 果 各 实体 点 在 图 上 聚集 成 几 个 相互 分 离 的 集团 ,那么 散 点 图 直 
接 显示 实体 的 分 类 情况 ,例如 图 9-1c 显示 53 片 商 周 时 期 的 原始 瓷 片 可 以 根据 其 Ce 和 Cr 
的 含量 分 成 3 组 。 这 是 二 元 变量 的 情况 , 当 实 体 被 3 种 属性 所 描述 时 ,根据 实体 在 三 维 空 
间 中 的 分 布 ,依然 可 以 直观 地 观察 到 它们 分 类 或 排序 的 规律 。 但 是 当 属 性 ,或 变量 的 数 
目 多 于 3 个 时 ,就 难以 再 利用 散 点 图 来 直观 地 对 实体 进行 分 类 和 排序 。 

多 元 数据 的 降 维 英语 称 为 Ordination, 它 是 通过 某 种 数学 运算 找到 少数 几 个 (理想 情 
况 下 是 2 个 或 3 个 ) 综 合 变量 ,并 用 这 些 综合 变量 来 描述 实体 的 属性 ,同时 在 降 维 过 程 中 
信息 量 的 损失 尽 可 能 少 。 这 里 所 谓 信息 量 是 指 样本 中 实体 群 的 总 离 差 ,或 总 方差 。 我 们 
希望 实体 群 在 新 的 综合 变量 空间 中 的 离 差 与 它们 在 原始 变量 空间 中 的 离 差 的 比值 尽 可 
能 大 , 尽 可 能 接近 1 ,或 者 说 新 变量 能 解释 的 原始 总 离 差 的 百分比 尽 可 能 高 。 数 学 上 已 经 
建立 了 多 种 多 样 的 降 维 方法 ,但 是 其 中 数学 基础 最 为 严格 的 是 主 成 分 分 析 方 法 , 它 也 是 
在 各 类 学 科 ,包括 考古 学 研究 中 应 用 最 广泛 的 方法 。 因 此 本 章 只 讨论 主 成 分 分 析 一 种 降 
维 方法 。 主 成 分 分 析 英 语 称 为 Pincipal Component Analysis, 简称 PCA。 

我 们 将 在 16.2 节 中 较为 详细 地 阐述 主 成 分 分 析 的 计算 过 程 。 主 成 分 分 析 的 原理 及 
其 计算 过 程 涉 及 矩阵 代数 ,对 于 不 熟悉 矩阵 运算 ,而 仅 为 了 应 用 主 成 分 分 析 方 法 的 读者 
可 以 不 阅读 这 一 节 。 在 16.1 节 介绍 主 成 分 分 析 的 基本 思想 时 将 避 开 矩阵 代数 ,而 只 使 用 
矩阵 代数 的 一 些 术语 和 符号 。 

”在 很 多 文献 中 提 到 另 一 种 重要 的 降 维 方法 , 即 因 子 分 析 或 主因 子 分 析 方法 。 主 因子 

分 析 和 主 成 分 分 析 有 很 多 共同 之 处 ,但 也 有 根本 的 区 别 。 虽 然 在 考古 文献 中 主要 应 用 主 
成 分 分 析 ,本 书 也 不 拟 讨论 因子 分 析 ,但 在 SPSS 软件 中 把 主 成 分 分 析 看 成 是 因子 分 析 中 
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因子 提取 的 一 种 方法 , 即 把 主 成 分 分 析 看 成 是 因子 分 析 中 的 一 种 方法 。 而 本 书 要 使 用 
SPSS 软件 进行 主 成 分 分 析 ,因此 在 本 章 的 论述 中 将 会 使 用 因子 分 析 的 一 些 术语 ,例如 主 
因子 提取 、 因 子 负载 和 实体 的 因子 得 分 等 ,读者 可 以 理解 为 主 成 分 提取 、 主 成 分 负载 和 实 
体 的 主 成 分 得 分 。 在 16.4.5 节 中 我 们 将 对 这 两 种 方法 作 比较 。 本 章 的 最 后 16.5 节 将 简 
要 介绍 对 应 分 析 。 


16.1 主 成 分 分 析 的 基本 思想 和 分 析 过 程 的 二 维 说 明 


16.11 主 成 分 分 析 的 基本 思想 


我 们 首先 通过 一 个 具体 的 例子 ,定性 地 来 阐明 主 成 分 分 析 的 基本 思想 。 在 20 世纪 
的 六 七 十 年 代 ,我 国 的 男性 公民 基本 上 都 穿 同 样式 样 的 上 衣 , 称 为 人 民 装 ,国外 称 之 为 毛 
服 。 上 衣 的 剪裁 取决 于 前 身长 .后 身长 . 袖 长 、 领 宽 、 肩 宽 、 胸 围 . 腰 宽 和 袖 宽 等 参数 ,每 件 
上 衣 这 些 参数 的 取 值 是 各 不 相同 的 。 如 果 服 装 厂 下 料 时 能 够 确定 几 个 固定 的 尺寸 进行 
剪裁 , 既 能 适合 绝 大 多 数 男人 的 体形 ,又 能 提高 生产 效率 和 降低 生产 成 本 。 在 测量 调查 
了 人 们 穿着 的 大 量 上 衣 后 ,会 注意 到 上 述 的 8 个 参数 之 间 是 相关 联 的 ,特别 是 前 面 3 个 参 
数 相互 之 间 ,以 及 后 面 5 个 参数 相互 之 间 是 高 度 相 关 的 ,分 别 可 以 用 “ 衣 长 "和 “ 衣 宽 "两 
个 综合 参数 来 替代 。 综 合 参数 就 是 主 成 分 。 现 在 (1) 把 “ 衣 长 ”分 为 长 .中 等 和 短 3 个 衣 
长 尺寸 ,(2) 而 每 个 “ 衣 长 "尺寸 又 分 为 “ 肥 、 正 常 和 瘦 ”3 种 “ 衣 宽 "型 号 来 剪裁 生产 9 种 型 
号 的 上 衣 ,那么 80% ~ 90% 的 男子 将 能 买 到 合身 的 上 衣 。 也 就 是 说 这 两 个 综合 参数 能 够 
解释 总 体 ( 全 部 男子 上 衣 ) 方 差 中 80% ~ 90% 的 部 分 ,或 者 说 从 8 个 参数 降 维 到 “ 衣 长 "和 
“ 衣 宽 ”这 两 个 综合 参数 时 ,80% ~ 90% 的 初始 信息 量 被 保留 了 。 

当然 ,这 里 有 一 系列 的 问题 要 进一步 的 考虑 ,(1) 根 据 一 批 实际 测量 的 上 衣 参 数 ( 样 
本 ) ,怎样 转换 为 衣 长 和 衣 宽 两 个 主 成 分 , 即 怎样 确定 变量 转换 系数 (公式 (16-3a) 中 的 
由 )。(2) 怎 样 计算 每 个 主 成 分 能 解释 总 方差 的 百分比 ,并 由 此 确定 选取 几 个 主 成 分 。 
这 涉及 每 个 主 成 分 的 特征 值 的 大 小 以 及 主 成 分 分 析 的 效率 。(3) 当 确定 了 被 选 主 成 分 的 
数目 后 (最 好 只 需 选 二 .三 个 主 成 分 ) ,需要 关心 每 个 原始 参数 或 原始 变量 的 方差 中 有 多 
少 百分比 能 被 解释 , 即 需要 了 解 每 个 变量 的 共同 度 , 共 同 度 越 高 , 主 成 分 分 析 的 效率 也 越 
高 。 这 涉及 计算 每 个 变量 对 于 每 个 被 选 主 成 分 的 负载 量 ,也 就 是 两 者 间 的 相关 系数 。 
(4) 计 算 样本 中 每 个 实体 (上 衣 ) 的 主 成 分 坐标 , 称 为 实体 的 因子 得 分 ,然后 分 析 实 体 在 前 
几 个 主 成 分 坐标 中 的 分 布 规律 ,从 而 对 实体 进行 分 类 或 排序 。 对 于 上 衣 剪 裁 的 例子 则 是 
根据 实体 的 分 布 确 定 上 衣 的 标准 尺寸 以 及 缝 制 每 种 型 号 的 上 衣 的 比例 数 等 。 

设 有 一 个 多 变量 的 样本 , 含有 n 个 实体 ,每 个 实体 被 m 个 变量 和 Z(j = 1,2,…m) 所 描 
述 ,把 这 组 数据 写成 矩阵 形式 : 

; 1 | (16-1) 


Xni m Хат 


和 矩阵 元 素 xy 是 第 i 个 实体 第 j 个 变量 的 取 值 .每 一 行 数据 代表 一 个 实体 ,也 可 以 看 作 т Ж 


Х(һхт) = 
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变量 空间 中 的 一 个 向 量 ; 而 每 一 列 数据 反映 一 个 变量 对 于 п 个 实体 的 取 值 ,同样 可 以 看 
作 n 维 实体 空间 中 的 一 个 向 量 , 在 这 里 我 们 设 定 这 些 w 都 是 对 变量 中 心 化 的 , 即 矩阵 每 
一 列 的 和 均 为 零 , 即 

У) = 0,( = 1,2, т) (16-2) 
也 可 以 更 进一步 设 定 这 些 у, 是 对 变量 标准 化 或 正规 化 的 ,原始 数据 的 中 心 化 对 于 主 成 分 
分 析 的 计算 是 非常 重要 的 。 如 果 数 据 已 经 是 中 心 化 的 ,那么 矩阵 Хе, 中 每 列 元 素 的 平 
DA уау 就 是 变量 % 的 离 差 平方 和 , 它 等 于 变量 МО Varla) 的 (n - 1) 倍 。 而 样本 
中 全 部 变量 的 总 离 差 平方 和 是 各 变量 离 差 平方 和 的 总 和 ,等 于 即 >) 2)x$。 另 一 方面 变 
ШЫН х, 和 x КАН ОУ», хы 是 变量 x; 和 ww 间 协 方差 Cov(%i,x) 的 (n - 1) 倍 。 


现在 对 т 维 空间 的 坐标 轴 作 刚性 转动 ,这 也 等 同 于 对 表 (16-1) 的 原始 数据 作 线性 转 
换 , 即 按 线性 关系 另外 建立 т PIER y: 


- Ха -uy (i = 1,2,:-п),() = 1,2, т) (16-3a) 
Жабулы ЕНІ. 
Ү,хту = - Хү.) О (мха) (16- 3b) 


Ш‹һхь) 是 一 个 m x m 阶 的 矩阵 , 称 为 变换 矩阵 。 坐 标 轴 的 刚性 转动 , 即 变量 作 线 性 变换 
时 ,样本 的 总 离 差 平方 和 ,或 简称 总 离 差 是 不 变 的 ,但 是 每 个 变量 的 离 差 平方 和 是 在 变化 
的 。 我 们 希望 在 坐标 变换 后 ,少数 几 个 新 变量 yj 已 能 解释 样本 (16-1) 大 部 分 的 总 离 差 ,而 
且 第 一 个 新 变量 y 能 解释 最 多 的 总 离 差 ,第 二 个 新 变量 у, 能 解释 第 二 多 的 总 离 差 …… , 
也 就 是 说 实体 在 yi 坐标 轴 方 向 上 的 离散 度 最 高 ,在 y 坐标 轴 方 向 上 的 离散 度 次 高 …… o 
у 和 y 分 别称 为 第 一 和 第 二 主 成 分 , 按 次 序 y 称 为 第 j 个 主 成 分 。 我 们 将 在 16.2 和 16.3 
节 中 讨论 怎样 计算 得 到 这 些 主 成 分 。 


16.1.2 主 成 分 分 析 的 二 维 说 明 


下 面 我 们 将 通过 一 个 二 维 的 样本 来 阐明 主 成 分 分 析 的 基本 思想 和 过 程 ,并 初步 介绍 
主 成 分 的 特征 值 , 变 量 对 于 因子 的 负载 ,变量 的 共同 度 以 及 实体 的 因子 得 分 等 概念 。 表 
16-1 列 出 了 一 个 由 8 个 实体 组 成 的 样本 ,每 个 实体 被 2 个 变量 x; 和 х, 所 描述 。 该 表 的 第 
23 行 显示 原始 变量 x, 和 х, 的 取 值 , 即 8 个 实体 的 原始 二 维 坐标 值 ,第 4.$ 行 是 x: ЯІ к; 
对 变量 中 心 化 后 的 数据 。 表 的 第 6.7 行 是 实体 的 主 成 分 得 分 ,或 称 因子 得 分 ,后 面 将 说 明 
这 2 行 数据 是 怎样 计算 得 到 的 。 该 表 的 最 后 一 列 显 示 各 变量 的 离 差 平 方 和 。 


表 16.1 二 维 空间 中 8 个 实体 的 例子 


实体 号 1 2 3 4 5 6 7 8 ” 离 差 平方 和 
原始 的 хі 4 4 0 2 -3 -1 3 -5 78 
原始 的 x 6 4 1 0 -4 -4 5 -6 145.5 


中 心 化 的 х, 3.5 3.5 -0.5 1.5 -3.3 -1.5 2.5 -5.5 78 
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| 续 表 
实体 号 1 2 3 4 5 6 7 8 рау 
中 心 化 的 xx 5.75 3.75 0.75 -0.25 -4.25 -4.25 4.75 -6.25 145.5 
主 成 分 1 6.71 5.09 0.32 0.67 -5.49 -4.33 5.32 -8.28 217.3 
主 成 分 2 0.51 -0.66 0.84 -1.36 0.366 -1.26 0.74 0.82 6.2 


表 16-1 中 第 4,5 行 的 数据 是 中 心 化 的 ,因此 这 二 行 元 素 的 平方 和 У, 分 别 是 变量 
Xi 和 х2 的 离 差 平方 和 ,而 2 (а, 十 жї) 是 样本 的 总 离 差 平方 和 ,或 简称 总 离 差 。 实际 计 


算得 到 两 个 变量 的 离 差 平方 和 分 别 为 78 和 145.5, 它们 之 间 的 善 别 并 不 大 , 仅 约 2 倍 。 样 
本 的 总 离 差 为 78 + 145.5 = 223.5, 


图 16-1 主 成 分 分 析 概 念 的 二 维 表示 。 


图 16-1 是 数据 中 心 化 后 的 样本 散 点 图 。 由 图 可 见 , 对 于 这 8 个 实体 所 组 成 的 样本 ， 
变量 x Ык 间 的 相关 性 是 较 高 的 ,我 们 将 用 一 个 “处 于 这 两 个 变量 之 间 , 又 同时 与 这 两 
个 变量 高 度 相 关 的 综合 变量 ”来 取代 这 两 个 变量 ,希望 这 种 取代 能 反映 绝 大 部 分 的 总 高 
差 。 

现 将 由 xi 与 x 组 成 的 原始 坐标 轴 刚 性 转动 g 角 ,得 到 新 的 坐标 系 (yi,ya)。 因 为 数据 已 
是 中 心 化 的 ,因此 坐标 轴 转 动 前 后 每 个 实体 的 坐标 值 (xi,m) (уу) 间 有 下 面 的 关系 : 

Уа = %1С090 + 528100 | 
ур = xal- віпб + macos = 1,28). (16-4) 


根据 式 (16-4) 也 可 以 看 到 ,在 新 的 (yi ,ys) 坐标 系 中 样本 的 总 离 差 是 不 变 的 , 即 有 


У + 92 = э + Эъ (16-5а) 
因为 离 差 平方 和 等 于 方差 的 (n - 1) 倍 , 所 以 上 式 等 价 于 
Var(y1) + Var(y2) = Уаг(х) + Var( x2) (16-5b) 


在 上 面 的 数据 转换 中 ,虽然 总 的 离 差 不 变 , 但 是 Var(y1) 和 Var(ya) 是 随 0 角 的 变化 而 变 
化 的 。 应 该 这 样 选择 0 fa, 使 得 Var(y!) 有 最 大 值 而 Vary) 有 最 小 值 , 即 尽量 拉 开 


Var(yi) 和 Varya) 之 间 的 差 虐 ,为 此 需要 让 2 уй, 或 Var(y1) 对 0 的 导数 为 零 。 求 得 的 导 
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数 的 表达 式 为 
а уй 

= = 2cosbsing( – аз + 224%) + 2сов20 > ха “хәс0 (16-6) 
将 表 16-1 的 数据 (中 心 化 后 的 ) 代 入 上 式 ， 解 此 方程 得 到 9 约 等 于 54.23 度 。 即 将 原始 坐 

标 轴 转 动 54.23 度 就 得 到 主 成 分 坐标 轴 。 在 图 16.1 中 已 画 出 主 成 分 坐标 轴 у, 和 yo 

8410-54.23 度 后 ,可 以 写 出 公式 (16-3b) 中 的 变换 矩阵 U, 
_ (9% — sinô | _ (954: - 0.812 | 

51п9 созд 0.812 0.583 
变换 矩阵 又 称 为 因子 得 分 系数 矩阵 。 利 用 变换 和 矩阵 和 公式 (16-4), 可 以 计算 得 到 各 实体 
在 新 坐标 系 的 坐标 值 (yi, y,) , 称 为 实体 的 主 成 分 得 分 或 因子 得 分 。8 个 实体 的 主 成 分 得 
分 已 被 写 人 表 16-1 的 第 6.7 行 。 样 本 的 主 成 分 得 分 也 是 中 心 化 的 ,每 行 元 素 的 平方 和 分 别 
给 出 每 个 主 成 分 的 离 差 平方 和 , 它们 分 别 为 217.3 和 6.2。 总 离 差 没有 产生 变化 ,依然 是 
217.3 + 6.2 = 223.5, 表 明 上 述 的 坐标 转换 不 改变 总 离 差 的 数值 ,但 是 两 个 主 成 分 的 离 差 
值 的 差异 明显 拉 大 了 , 两 者 差 30 多 倍 。 这 样 得 到 的 变量 у 具有 最 大 的 离 差 及 方差 
Var(y1) ву 称 为 第 一 主 成 分 (PC1) ,相应 变量 у, 称 为 第 二 主 成 分 (PC2) 。 当 我 们 仅 提 取 第 
一 主 成 分 ” ,并 仅 用 它 来 描述 样本 的 各 实体 时 , 所 保留 的 信息 量 的 百分比 为 


va у _ _ 
[ Уаг( уу) + Var(y2)]° 对 于 上 面 的 例子 ， 第 主 成 分 所 保留 的 信息 百分比 为 


217.3 
017.3 +62) = 0.972, 从 而 达到 了 降 维 的 目的 。 
在 16.3 节 中 我 们 将 看 到 , 对 应 于 每 个 主 成 分 有 一 个 特征 值 4;, 而 且 А; 是 正比 于 
Уаг(у;) 的 。 主 成 分 分 析 中 1; 是 按 数值 大 小 排列 的 , 即 有 2 > А» > … > Ао 给 


(16-7) 


(А, +4) (А + А5 + Аз) 
УА, УА, 

Ж ВТЕ ТЕКНА А ВТ КЕНЕН НИКЕ ЕАН ШЕЕ Е 
分 分 析 有 效 性 的 一 个 重要 指标 , 它 取决 于 原始 数据 本 身 的 结构 ,一 般 情况 下 ,原始 变量 间 
的 相关 性 越 强 ,前 二 、 三 个 主 成 分 所 保留 的 相对 信息 量 也 越 多 。 

在 主 成 分 分 析 中 我 们 还 希望 知道 各 个 原始 变量 对 于 所 提取 的 主 成 分 的 贡献 , 称 为 变 
量 对 于 主 成 分 (因子 ) 的 负载 ,也 就 是 变量 与 主 成 分 之 间 的 相关 系数 。 表 16-2 МУНТ 
В x 和 xz 对 于 主 成 分 yi , 即 PC1 的 负载 ,该 表格 称 为 因子 负载 矩阵 表 。 在 16-2 节 中 将 
讨论 怎样 计算 得 到 这 些 负载 量 。 


出 第 i 个 主 成 分 对 总 离 差 贡献 的 百分比 。 和 是 前 二 个 和 前 三 个 


表 16-2 ”因子 负载 矩阵 表 
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前 面 计算 了 第 一 主 成 分 保留 了 样本 总 离 差 的 97.2% ,我 们 也 希望 了 解 所 选 的 第 一 主 
成 分 分 别 反 映 单个 变量 д, 和 х, 的 离 差 的 比例 , 称 为 变量 х 和 x 的 共同 度 。 可 以 证 明 ,在 
提取 一 个 主 成 分 的 情况 下 变量 的 共同 度 等 于 其 因子 负载 的 平方 ,在 上 面 讨论 的 例子 中 ， 
变量 ху 和 х, 的 共同 度 分 别 为 (0.973)* = 0.947 和 (0.993)* = 0.985。 共同 度 在 1 和 0 之 
间 变 动 , 它 的 大 小 反映 了 某 个 变量 在 所 进行 主 成 分 分 析 中 作用 的 大 小 。 

通过 阅读 上 面 所 述 的 二 维 的 例子 ,读者 了 解 了 主 成 分 分 析 的 大 致 计算 过 程 和 有 关 的 
一 些 概念 ,如 特征 值 ,因子 负载 ,实体 的 因子 得 分 ,原始 变量 的 共同 度 等 。 如 果 读 者 不 准 
备 更 深入 地 了 解 主 成 分 分 析 的 计算 过 程 ,或 者 对 于 矩阵 的 运算 不 熟悉 , 则 可 以 跳 过 16.2 
节 , 直 接 阅读 16.3 节 关 于 主 成 分 分 析 的 应 用 实例 。 


16.2 主 成 分 分 析 的 一 般 计 算 过 程 * 


本 节 将 更 深入 地 讨论 主 成 分 分 析 的 计算 过 程 。 一 组 多 元 数据 如 公式 (16-1) 所 示 ,对 
其 作 主 成 分 分 析 总 是 从 该 数据 组 的 方差 - 协 方差 算 阵 或 相关 系数 矩阵 出 发 的 ,这 两 种 矩阵 
都 是 对 称 的 方 阵 , 因 此 计算 过 程 涉 及 对 称 和 矩阵 的 性 质 和 运算 ,16.2.1 小 节 将 先 讨 论 对 称 
和 矩阵 的 性 质 。 


16.2.1 对 称 和 矩阵 的 特征 值 和 特征 向 量 


RA т 阶 方 阵 Scxm) ,而 且 其 对 称 于 方 阵 主 对 角 线 的 元 素 相等 , 即 有 ху = ali zz 
门 , 那 么 Su 称 为 对 称 和 矩阵 。 如 果 5(„уһ) 的 行列 式 S 1 0, 则 可 以 找到 m 个 不 等 于 
0 的 实数 4; з 0(i = 1,2-5: т) 和 相应 m 个 m 维 的 列 向 量 wicnxp (i = 1,2…m)，, 使 得 


S11 50077 Sim Шу Ш; 
521 520% S2m Uzi ш 

= А; . (16-8а) 
Sml Sm2 М. Smm Umi Umi 


А, 称 为 对 称 方 阵 的 特征 根 或 特征 值 ,而 kien E 2, 对 应 的 特征 向 量 。 特 征 值 可 以 按 大 
小 排列 ,使 得 ду >А› 2 … 宇 Xn。 上 式 可 以 写成 

Su; = Аш; 1 Su; – Аш, = 0 А (16-8Ь) 
如 果 将 т ТЕЕ ТАГ ЖА ЕЗПГЕ 0—5 т ЁТ ЕИ, Ж m 个 4; 按 大 小 次 序 排列 组 
成 一 个 т 阶 的 对 角 线 方 阵 4, 即 有 


ит u12 Uim А\ 0 0 0 

г - и21 22 4. Шәл 和 А = 0 А» 0 0 
0 0 0 

Umi Um2 U Umm 0 0 0 Àm 


则 公式 (16-8a) 也 可 以 写成 
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діші Адир 7% Ам 
Аи Ази e Аут 
580 = ША -| ^^ ? (16-8) 
41 Umi A2 Um2 e Ат Итт 
还 可 以 将 m 个 特征 向 量 作为 行 向 量 组 成 一 个 m ИЛЕУ: 

иі Шр “” Um 

y- ир 80779 Um 
Um Um ` Umm 


显然 V 是 方 阵 上 的 转 置 矩阵 , 即 V= 07, AW 8 和 A 都 是 对 称 矩 阵 , 因 此 式 (16-8c) 也 
可 以 写作 


Ауй Ашо С Ашы 
Аи Ац лид 

уб -лу-| 280 77% ол (16-84) 
Алйул Да ат .. À mlimm 


公式 (16-8a) 至 (16-8d) 都 是 等 价 的 。 可 以 证 明 当 S$ ЖА ЖОЕ ДЕН, ЕТА ЕАН АУЕ 
BE U 是 正 交 和 矩阵 , 即 有 UT= Um!, 这 里 UV"! 是 上 0 НЕ, ШІ VU! = 了 ,因此 也 有 UU? 
=I, 1—1 т 阶 的 单位 方 阵 , 即 


0 0 
0 1 0 

І = о 
0 0 … 1 


对 称 和 矩阵 的 特征 值 和 特征 向 量 有 以 下 的 性 质 
(1) 对 称 方 阵 S 各 特征 值 的 平方 和 等 于 该 方 阵 各 元 素 的 平方 和 , 即 


У = >) 时 (16-9) 
(2) 对 称 方 阵 $ 各 特征 值 的 和 等 于 该 方 阵 对 角 线 元 素 值 的 和 , 方 阵 对 角 线 各 元 素 值 
的 和 称 为 该 方 阵 的 追 迹 。 即 有 


УА; = У), (16-10) 

(3) 特征 向 量 u; 之 间 是 正 交 的 , 即 
щи, = 0, 如 果 i 产 jj;uw = 1, 如 果 i =) 
(4) 由 特征 向 量 и; 组 成 的 正 交 和 矩阵 乘 任何 空间 向 量 x ,其 作用 是 坐标 轴 的 刚性 转动 。 
(5) 对 称 方 阵 S 的 各 特征 向 量 组 成 的 正 交 矩阵 V A U, IRETE S 转换 为 对 角 线 矩阵 
А.Ш 

0-80 = А (16-11а) 

VSV! = A (16-11Ь) 
前 面 讨论 了 对 称 矩 阵 的 特征 值 和 特征 向 量 以 及 它们 的 性 质 , 下 面 简单 说 明 怎 样 计算 
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得 到 对 称 和 矩阵 的 特征 值 和 特征 向 量 。 公 式 (16-846) 可 改写 成 


(S — АГ)и = (S$- А)и =0 (16-12) 
Нуи 是非 0 的 向 量 ,要 求 式 (16-12) 为 0, 矩阵 5 - Л 的 行列 式 应 为 0。 即 
5] 一 А 812 e біш 
Is-al=| À а о (16-13) 
Sml Sm2 e Smm 一 入 


这 是 4 的 严 次 多 项 式 方程 ,也 称 为 矩阵 8 的 特征 方程 如果 18 | x 0, 解 此 方程 ,可 以 得 到 
m 个 不 等 于 0 的 实数 根 4;。 将 A; RAR (16-12) 可 求 得 相应 的 特征 向 量 。 当 然 解 高 次 多 项 
式 方程 和 随后 的 计算 特征 向 量 都 是 大 量 复 杂 烦 琐 的 计算 ,现在 均 由 计算 机 程序 来 完成 ， 
并 且 往 往 得 到 的 是 近似 值 。 使 用 SPSS 软件 进行 主 成 分 分 析 时 ,程序 会 自动 计算 原始 数 
据 的 协 方差 矩阵 或 相关 系数 矩阵 的 特征 根 和 特征 向 量 。 


16.2.2 主 成 分 分 析 的 一 般 计算 过 程 


Х 77 Xim 
主 成 分 分 析 是 希望 将 公式 (16-1) 记 录 的 原始 数据 Хк) = | : 


Xal Еи Хат 


式 (16-3a) 规 定 的 线性 变换 у, = Dlan шу, 转换 为 主 成 分 坐标 Yarn ,并 使 得 新 变量 у 


反映 样本 总 离 差 的 最 大 部 分 ,y, 反 映 样本 总 离 差 的 次 大 部 分 ,依次 类 推 ,y, 反映 样本 总 离 
差 的 最 小 部 分 。 这 个 转换 写成 矩阵 形式 是 公式 (16-3b) 所 示 的 Fw = Х(пхт) Сахт) 


在 16.1.2 节 主 成 分 分 析 的 二 维 说明 中 ,给 出 了 Оу 对 0 求 导数 的 公式 (16-6) ,简单 的 代 
数 运 算 可 以 证 明 式 (16-6) Ж ут 和 у 协 方差 Cov(yi, у;) 的 表达 式 的 整数 倍 。 因 此 要 求 
Ху 的 导数 为 零 等 价 于 要 求 Cov(y1,y;) = 0, 也 可 以 说 尽量 拉 开 Var( yi) 和 Varl у) 之 


间 的 差距 等 价 于 要 求 Cov(y1,ys) = 0。 因 此 对 于 二 维 的 样本 , 主 成 分 分 析 相 当 与 寻找 一 
个 变换 矩阵 ,使 得 
vyxv = YY = nD 9 (16 - 14) 
0 Var( у») 
式 中 XX Ж ЖШН АН ЖЕ So WE х 仅 是 中 心 化 的 ,那么 S 是 变量 的 离 差 
矩阵 。 如 果 是 对 高 差 标 准 化 的 ,那么 5S 是 相关 系数 和 矩阵。 如果 下 是 对 标准 差 标准 化 
的 , 即 正规 化 的 ,那么 8 是 相关 系数 矩阵 的 (m - 1) 倍 。 无 论 使 用 哪个 5 矩阵 ,进行 主 成 
分 分 析 的 过 程 是 相同 的 。 
上 述 的 对 二 维 情况 的 讨论 可 以 推广 到 多 维 的 情况 。 即 多 元 数据 的 主 成 分 分 析 也 是 
对 守 作 如 下 的 转换 ,使 得 
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Ұаг(у;) 0 
0 Уаг(уз) ~ 0 
ШЇ ХТХИ = 0180 = ҮҮ = (m – 1) э? (16-14а) 
0 0 ee Уаг(у„) 


另 一 方面 ,由 16.2.1 节 了 可知, 对 于 对 称 和 矩阵 有 公式 (16-lla) USU = A。 因 此 原始 
ЖО РЧ ЛА Ж ЖОР 8 RIEA > А А, 依次 正比 于 主 成 分 的 方差 Var(yi) > 
Var( y2) эс” > Уаг(у„)„ A S 的 特征 向 量 作为 列 组 成 的 矩阵 U 就 是 将 原始 数据 下 转换 
为 主 成 分 坐标 了 的 变换 矩阵 。 主 成 分 分 析 的 计算 过 程 首先 就 是 计算 内 积 系数 矩阵 5 的 
特征 值 M; 和 特征 向 量 и; 


k 


Ўл 
计算 得 到 了 л, 值 后 ,可 以 计算 仅 提取 前 k 个 主 成 分 时 保留 的 信息 量 百 分 к, . 
А, 


并 决定 提取 主 成 分 的 数目 ko ЕТАН Н ЛЕН ТЕ. ЖК ИЕ ТЕЛА ЯЙ ЖЕ ЕРІ 
的 关系 和 规律 ,显然 希望 提取 的 主 成 分 的 数目 不 大 于 3 个 而 同时 保留 的 信息 量 百 分 比 又 
较 大 ,譬如 说 大 于 60% 。 能 否 实现 这 个 希望 取决 于 原始 数据 本 身 的 结构 ,关键 在 于 要 求 原 
始 变 量 间 存在 较 强 的 相关 性 。 

确定 了 提取 主 成 分 的 数目 ,譬如 提取 了 3 个 主 成 分 ,利用 变换 矩阵 可 以 计算 实体 在 
新 坐标 系 中 前 3 个 主 成 分 的 坐标 值 , 即 实 体 的 主 成 分 得 分 。 如 公式 (16-15) 所 示 。 


Yu Yn Уз Ui U2 Wl3 

Ул Yn Уз U2 U2 изз 
,=x О, (16-15) 

Yni Yn2 Ym Um) Um2 Um3 


在 公式 (16-15) 中 , 仪 需 写 出 了 变换 矩阵 , 即 因 子 得 分 系数 矩阵 的 前 3 列 。 因 为 每 个 
主 成 分 都 是 全 部 原始 变量 x 的 线性 组 合 , 不 是 单个 变量 的 函数 ,原则 上 需要 分 析 每 个 原 
始 变 量 分 别 对 每 个 主 成 分 的 贡献 。 为 此 我 们 建立 一 个 新 的 矩阵 , 称 为 因子 负载 矩阵 。 
іп һу се lim МА ши УӚзиш;ф С” Ами 
д із с dam _ МА un „Аз шз КЕ МА „изт _ 1 


ПА? 


lmi lma ' lmm VA Uml V Аз имә 1 М À mimm 
(16-16) 
因子 负载 矩阵 有 一 些 重要 的 性 质 。(1) 如 果 时 是 对 离 差 标 准 化 的 ,那么 矩阵 L 的 元 


Ди EX SATY 间 的 相关 系数 ,而 А77 Ү 是 对 离 差 标准 化 的 Y。 也 就 是 说 工 是 原 
始 变量 和 离 差 标准 化 的 主 成 分 间 的 相关 系数 矩阵 。 因 此 aiu 反映 变量 zx 对 主 成 分 y 的 
贡献 , 称 为 变量 x; 对 第 j 个 主 成 分 的 负载 量 。 证 明 如 下 :xX 与 4-3Y 间 的 相关 系数 矩阵 是 
XT( YA -3) ,利用 公式 (16-3b) 和 (16-8c) 可 以 推导 得 到 
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ХЇ(ҮА-%) = ХЇ(ХШАС?) = ХТХОА-5 = SUA“? = DAA = ША? = L 
(16-17) 
(2) AF U ЖЕЖ ВЕ, 24) = 1。 和 矩阵 工 第 /7 列 元 素 的 平方 和 等 于 1), 即 等 于 该 主 


成 分 的 特征 值 。 表明 各 变量 对 第 j 个 主 成 分 的 负载 量 的 平方 和 是 该 主 成 分 的 离 差 平方 
和 。 

(3) 也 可 以 对 和 矩阵 工 第 j 行 元 素 的 平方 求 和 。 第 九 章 的 公式 (9-8) 曾 证 明 相关 系数 的 
平方 等 于 回归 分 析 所 能 解释 的 总 离 差 的 百分比 。 ЕЕЗ , АЖЕ 工 每 行 元 素 的 
平方 和 是 等 于 1 的 , 即 主 成 分 坐标 系 能 解释 原始 数据 中 每 个 变量 的 全 部 离 差 ,在 实际 的 分 


析 中 只 选取 前 几 个 主 成 分 ,如 果 只 选取 了 3 个 主 成 分 ,那么 22% - Удиви, 对 


所 选 前 3 个 主 成 分 所 起 的 作用 ， 也 是 前 3 个 主 成 分 所 能 解释 变量 ,的 离 差 的 百分比 ， 也 称 
为 变量 x; 的 共同 度 。 


16.3 SPSS 软件 主 成 分 分 析 程 序 的 两 个 考古 应 用 实例 


主 成 分 分 析 在 考古 研究 中 已 得 到 较 广 泛 和 多 方面 应 用 。 据 Baxter(1994) 对 1994 年 前 
英语 文献 的 统计 , 主 成 分 分 析 应 用 于 考古 遗物 的 化 学 组 成 分 析 的 70 篇 ,应 用 于 器 物 形 
态 、 人 上 骨 与 兽 骨 测量 指标 分 析 的 28 篇 和 应 用 于 器 物 群 比较 研究 的 33 篇 。 另 外 有 23 篇 论 
文 , 其 作者 称 使 用 了 因子 分 析 于 考古 研究 ,但 其 中 相当 比例 实际 上 是 使 用 主 成 分 分 析 方 
法 。 在 这 些 论文 中 具有 相当 影响 的 是 新 考古 学 学 派 的 创始 人 Binford 等 (1966) 应 用 主 成 
分 分 析 于 法 国 莫 斯 特 石器 研究 的 文章 (文中 自称 为 因子 分 析 , 实 际 上 进行 的 是 带 主 成 分 
轴 旋 转 的 主 成 分 分 析 )。 该 文 挑战 法 国 著名 有 旧 石 器 考古 学 家 博 德 斯 (Bordes) 的 传统 观点 ， 
认为 不 同 地 点 观测 到 的 石器 组 合 的 差异 并 不 代表 不 同人 群 的 文化 ,而 是 反映 同一 种 人 群 
在 不 同 地 点 不 同 季 节 从 事 不 同 的 生产 活动 。 在 我 国 ,已 发 表 的 主 成 分 分 析 应 用 于 考古 研 
究 的 论文 中 ,多 数 也 是 应 用 于 古 陶 瓷 根 据 其 化 学 组 成 的 产地 淹 源 研究 。 有 若干 篇 论文 是 
根据 人 颅骨 和 人 牙 进行 种 族 分 类 ,应 用 于 器 物 分 类 排序 的 仅见 一 篇 (本 章 的 实例 二 )。 在 
中 文 的 文献 中 尚未 见 到 应 用 主 成 分 分 析 方 法 于 器 物 群 的 比较 研究 的 文章 。 本 节 将 分 别 
介绍 主 成 分 分 析 应 用 于 瓷器 的 产地 溯源 和 陶器 按 其 形态 分 类 的 两 个 实例 ,希望 读者 能 通 
过 实例 进一步 了 解 主 成 分 分 析 的 原理 ,计算 方法 以 及 在 考古 研究 中 可 能 发 挥 的 作用 。 分 
析 过 程 是 使 用 SPSS 软件 的 有 关 程 序 来 完成 的 ,因此 本 节 也 将 演示 怎样 使 用 SPSS 软件 执 
行 主 成 分 分 析 。 


16.3.1 实例 一 : 商 周 原始 资产 地 的 溯源 研究 


第 十 五 章 曾 对 江西 吴 城 (20 片 ) .浙江 黄梅 山 (8 片 )、 安 徽 御 牛山 (6 т). А05 
(8 片 ) 和 广东 博 罗 (11 片 ) 出 土 的 5 组 共 53 片 原始 奖 瓷 片 作 了 判别 分 析 。 这 些 瓷 片 曾 用 
中 子 活化 分 析 方 法 测量 了 АІ, Ва, Се, Сг, Cs, Еш, Ее, Hf, К, La, Mn, Na, №, Sb, Sc, 
Tb, Th, U 和 Yb 等 共 19 种 元 素 的 含量 (测量 数据 见 表 15-28) 。 本 节 将 使 用 SPSS 软件 对 这 
组 数据 进行 主 成 分 分 析 , 希望 在 降 维 后 的 二 维 或 三 维 主 成 分 坐标 空间 中 分 析 数 据 的 结 
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构 ,观察 在 降 维 后 的 主 成 分 坐标 空间 中 上 述 5 组 不 同 产 地 的 瓷 片 能 否 被 区 直观 地 区 分 
开 。 下 面 将 依次 按照 (1) 数据 的 输入 和 各 选项 的 确定 ,(2) 程 序 执行 后 输出 文件 的 解读 
和 (3) 主 成 分 分 析 结 果 的 讨论 等 三 部 分 对 分 析 过 程 作 说 明 。 

(一 ) 程序 对 话 框 中 的 各 个 选项 。 

在 执行 SPSS 主因 子 分 析 程 序 前 , 除 输 入 原始 数据 ,确定 分 析 变 量 外 ,还 需要 确定 一 
系列 选择 项 目 ,包括 确定 选用 相关 系数 矩阵 还 是 协 方差 矩阵 进行 分 析 , 确定 主因 子 提取 
的 方法 和 数目 ,要 求 程序 输出 哪些 统计 量 等 。 此 外 还 可 以 要 求 程序 检验 原始 数据 整体 和 
每 个 变量 是 否 适宜 于 作 主 成 分 分 析 等 。 具 体 过 程 如 下 : 

1. 建立 SPSS 的 数据 文件 。 虽 然 在 前 面 两 节 中 一 直 强 调 在 主 成 分 分 析 中 原始 数据 应 
该 中 心 化 或 标准 化 ,但 用 户 建立 数据 文件 时 ,不 必 自 己 作 数据 的 转换 。SPSS 的 主 成 分 分 
析 程 序 将 自动 对 原始 数据 作 必 要 的 转换 。 

2. 打开 “Data reduction ,一 Factor" 对 话 窗口 (SPSS 软件 将 主 成 分 分 析 当 作 因 子 分 析 的 
一 种 特殊 方法 )。 首先 选择 和 输入 分 析 变 量 。 对 于 原始 瓷 片 的 例子 ,由 于 5 组 瓷 片 在 以 Al 
和 Fe 为 坐标 轴 的 散 点 图 中 分 离 不 明显 ,而 Cs, Мп, Se 的 “采样 适宜 度 低 ”, 因 此 这 5 个 元 
素 未 被 选 ,它们 不 参加 后 面 的 分 析 过 程 。 只 有 其 他 14 个 元 素 被 选 作 为 分 析 变 量 。 关 于 
什么 是 变量 的 采样 适宜 度 ,本章 后 面 将 作 说 明 。 

3. 打开 “Descriptives” 子 对 话 框 。 可 以 要 求 程序 输出 对 一 系列 统计 量 的 计算 结果 ,其 
中 包括 单 变量 的 描述 性 统计 ,变量 间 的 相关 系数 矩阵 及 其 显著 性 水 平 ,相关 系数 矩阵 的 
行列 式 和 首 和 矩 阵 等 。 建 议 在 “Deseriptives”" 子 对 话 框 中 选择 下 面 几 个 统计 量 ， 

(1) “Initial solution” 选 项 。 这 是 程序 默认 的 选择 ,应 该 是 必 选 的 项 目 。 此 项 选择 要 求 
程序 输出 各 变量 初始 的 共同 度 , 每 个 主 成 分 的 特征 值 以 及 所 能 解释 的 总 离 差 的 百分比 。 

(2) “КМО and Вашен” в Test of Sphericity” 选 项 。 这 个 选项 执行 两 个 检验 ,检验 样本 整 
体 上 是 否 适 宜 于 做 主 成 分 分 析 。KMO 是 Kaiser-Meyer-Olkin 采样 适宜 上 度 的 简写 , 它 是 样本 
的 全 部 相关 系数 的 平方 和 与 “全 部 相关 系数 的 平方 和 与 全 部 偏 相 关系 数 的 平方 和 之 和 ” 
的 比值 。KMO 值 是 在 0 与 1 间 变 动 , 它 表征 偏 相关 系数 相对 于 简单 相关 系数 是 否 很 小 ， 
或 者 说 表征 总 离 差 中 有 多 少 比例 属于 公共 离 差 。 一 般 要 求 КМО 值 至 少 大 于 0.60 ,希望 
能 大 于 0.70, 如 果 КМО 太 低 ,例如 低 于 0.5, 表 明 样 本 不 适宜 于 作 主 成 分 分 析 。 了 Bartlett Ж 
形 检 验 是 检验 相关 系数 矩阵 是 否 是 一 个 单位 矩阵 ,如 果 相 关系 数 抢 阵 接 近 单 位 矩阵 ,说 
明 变 量 间 的 相关 性 很 低 ,样本 不 适宜 于 作 主 成 分 分 析 。 程 序 给 出 Bartlett 球形 检验 的 显著 
性 水 平 。 

(3) “Anti image” 选 项 。 这 个 选项 是 检验 单个 变量 是 否 适 宜 于 主 成 分 分 析 。 选 项 的 执 
行将 输出 反映 像 协 方差 矩阵 和 反映 像 相 关系 数 矩 了 泗 。 主 要 应 检查 反映 像 相关 系数 矩阵 
对 角 线 上 的 元 素 ,在 SPSS 的 输出 文件 中 ,这 些 元 素 用 上 标 “a” 标 志 。 如 果 对 角 线 上 某 个 元 
素 的 值 小 于 0.5 ,表明 所 对 应 的 变量 的 采样 适宜 度 低 。 可 以 考虑 将 采样 适宜 度 低 的 变量 
从 分 析 变 量 表 中 删 去 ,并 重新 执行 主 成 分 分 析 程 序 。 删 除 采样 适宜 度 低 的 变量 还 将 提高 
整套 数据 的 采样 适宜 度 , 即 提 高 KMO {Н 

4. 打开 “Extraction” 子 对 话 框 。 通 过 本 对 话 框 的 各 选项 ,用户 确定 并 要 求 程 序 怎样 来 
执行 主因 子 分 析 ,主要 是 确定 提取 主因 子 的 方法 。 
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(1)“Method "中选 ^PCA"。 因 为 我 们 要 进行 的 是 主 成 分 分 析 , 这 也 是 程序 的 默认 选 
择 。 如 果 读 者 希望 进行 因子 分 析 , 有 多 种 提取 因子 的 方法 可 供 选择 ,例如 最 大 似 然 法 等 。 

(2) 第 二 步 要 在 原始 数据 的 相关 系数 矩阵 和 协 方差 矩阵 间作 选择 ,选择 使 用 哪个 扼 
阵 进 行 主 成 分 分 析 。 这 是 一 个 重要 的 选择 ,两 者 必 选 其 一 。 选 择 不 同 的 矩阵 将 给 出 不 完 
全 相同 的 分 析 结 果 。 我 们 建议 使 用 相关 系数 矩阵 ,因为 使 用 相关 系数 矩阵 使 得 每 个 分 析 
变量 在 分 析 过 程 中 有 大 致 相等 的 作用 ,而 且 也 便于 对 分 析 结 果 的 解释 。16.4.1 小 节 将 对 
此 进一步 讨论 。 

(3)“Extract" 栏 ,由 用 户 决定 选取 主 成 分 或 因子 的 数目 。 一 般 只 选取 特征 值 大 于 “1” 
的 主 成 分 ,这 也 是 程序 默认 的 选择 。 因 为 在 使 用 相关 系数 矩阵 进行 主 成 分 分 析 时 , 主 成 
分 特征 值 的 平均 值 为 "1"。 当 然 也 可 以 具体 规定 提取 主 成 分 的 数目 。 

(4) 在 “Display" 栏 中 ,需要 选 “unrotated factor solution”。 因 为 我 们 不 准备 将 主 成 分 轴 
或 因子 轴 作 旋转 。“Scree plot” 可 选 可 不 选 ,如 果 作 了 选择 ,将 输出 特征 值 的 碎 石 图 ,形象 
地 显示 前 几 个 主 成 分 的 贡献 情况 。 

(5) 程序 规定 ,在 用 迭代 方法 计算 相关 系数 矩阵 的 特征 值 和 特征 向 量 时 ,如 果 计 算 过 
程 收敛 不 佳 ,最 高 迭代 次 数 不 超过 25 次 。 我 们 不 必 去 改动 。 

5.“Rotation” 子 对 话 框 。SPSS 软件 提供 对 主 成 分 轴 或 因子 轴 作 旋转 处 理 的 程序 。 旋 
转 可 以 帮助 阐释 原始 分 析 变 量 对 主 成 分 或 因子 的 贡献 情况 ,但 也 会 带 进 新 的 问题 和 不 确 
定性 。 本 书 将 讨论 的 主 成 分 分 析 应 用 实例 中 , 均 不 作 主 成 分 轴 旋 转 ,因此 在 “Method" 栏 中 
选择 “none”。 关 于 因子 轴 旋 转 的 问题 在 16.4.4 小 节 中 将 有 较 详 细 的 讨论 。 

在 “Rotation " 子 对 话 框 的 “Display” 栏 中 ,用 户 可 以 选择 要 求 显示 变量 的 因子 负载 散 点 
图 ,该 图 有 助 于 对 分 析 结 果 的 解释 。 

6. “Factor Scores” 子 对 话 框 中 有 两 个 选项 : 

(1) 可 以 要 求 将 实体 的 因子 得 分 作为 新 变量 写 和 人 原始 数据 文件 ,这 应 该 是 必 选 的 项 
目 。 有 3 种 计算 因子 得 分 的 方法 可 供 选择 。 对 于 主 成 分 分 析 ,而 且 主 成 分 轴 不 作 旋 转 ， 
那么 3 种 方法 计算 得 到 的 实体 的 因子 得 分 是 相等 的 。 如 果 要 作 选 择 T E“ Anderson - ru- 
bin" 方 法 ,此 法 给 出 的 因子 得 分 的 均值 为 0, 标准 差 为 1, 而 且 相 互 间 不 相关 。 

(2) 可 以 要 求 显示 因子 得 分 系数 矩阵 。 

7.“0ption " 子 对 话 框 的 选项 包括 确定 对 缺失 值 的 处 理 方式 ,以 及 要 求 程 序 输出 “ 变 
量 对 所 选 主 成 分 的 负载 " 表 时 ,变量 按 负载 大 小 排列 ,这 也 有 利于 对 分 析 结 果 的 解释 。 

完成 对 上 面 5 个 子 对 话 框 的 选项 后 ,点 击 主 成 分 分 析 对 话 框 中 的 “OK” 钮 ,程序 即 可 
执行 。 

(二 ) 程序 执行 的 输出 文件 。 

1. 因为 在 “Deseriptives "对话 框 中 ,我 们 选择 要 求 显示 “KMO” 和 “反映 像 矩 阵 ” ,程序 首 
先 列 出 检验 整套 数据 和 每 个 变量 对 于 主 成 分 分 析 的 适宜 度 的 结果 。 对 于 原始 次 片 的 例 
子 ,输出 的 检验 结果 如 表 16-3 所 示 。 
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Ж 16-3 КМО and Bartlet 检验 


Kaiser-Meyer-Olkin Measure of Sampling Adequacy. 0.778 
Bartlett’ в Test of Sphericity Approx. Chi-Square 811.501 

df 91 
Sig. 0.000 


КМО 样本 适宜 度 度量 为 0.778 ,接近 0.8, 而 Bartlett 检验 的 “相关 系数 矩阵 是 单位 和 矩 
阵 ”" 的 原 假设 被 否定 ,说明 整 套数 据 是 适宜 于 主 成 分 分 析 的 。 

反映 像 相关 系数 矩阵 表 因 所 占 篇 幅 太 大 ,这 里 不 予 列 出 。 由 该 表 可 见 , 除 K 和 Na 的 
反映 像 相关 系数 略 小 ,在 0.54 左右 外 ,其 他 变量 的 反映 像 相 关系 数 均 大 于 0,6。 说 明 所 
选 各 变量 的 采样 适宜 度 是 可 以 接受 的 。 在 本 小 节 ( 一 )2. 讨论 的 主 成 分 分 析 选 项 对 话 框 
中 ,我 们 未 将 Cs, Mn 和 Sc 等 3 个 元 素 作 为 分 析 变 量 输入 程序 。 如 将 这 3 个 变量 也 作为 分 
析 变 量 输入 ,程序 的 执行 会 揭示 它们 的 反映 像 相 关系 数 小 于 0.5, 即 它们 的 采样 适宜 度 是 
受到 怀疑 的 。 | 

2. 程序 接着 输出 各 个 变量 , 即 14 个 元 素 的 共同 度数 值 表 ( 表 16-4)。 变 量 的 共同 度 
是 指 被 主 成 分 或 因子 所 解释 的 方差 百分比 。 表 中 第 2 列 显示 初始 共同 度 , 它 是 全 体 主 成 
分 所 解释 的 每 个 变量 的 方差 值 。 因 为 本 实例 中 采用 主 成 分 分 析 方 法 提取 因子 , 即 进 行 的 
是 主 成 分 分 析 , 而 且 分 析 是 从 相关 系数 矩阵 出 发 的 ,因此 各 变量 的 初始 共同 度 均 为 
1.000。 如 果 选 择 了 协 方差 矩阵 , 则 初始 共同 度 为 各 变量 的 方差 值 。 表 中 第 2 列 显示 所 选 
取 的 前 几 个 主 成 分 所 能 解释 的 每 个 变量 方差 值 的 百分比 。 后 面 可 以 看 到 ,本 实例 中 在 要 
求 被 选取 的 主 成 分 的 特征 值 大 于 1 的 条 件 下 ,前 3 个 主 成 分 被 选 。 因 此 表 16-4 第 3 列 中 
所 显示 的 ,是 前 3 个 主 成 分 所 解释 的 每 个 变量 方差 的 百分比 。 由 表 可 见 对 于 绝 大 多 数 变 
量 ,3 个 主 成 分 的 共同 度 均 大 于 0.68, 只 有 元 素 Hf 的 共同 度 偏 低 , 为 0.534。 说 明 在 原始 
数据 降 维 到 3 个 主 成 分 的 情况 下 ,对 于 变量 Hf, 只 有 约 53% 的 方差 被 反映 ,Hf 对 所 进行 
的 主 成 分 分 析 起 的 作用 不 大 ,可 以 考虑 将 HH 从 分 析 变 量 表 中 删除 ,重新 执行 主 成 分 分 
析 。 在 本 例 中 我 们 不 作 改动 。 


表 16-4 变量 的 共同 度 


Initial Extraction 
Ba% 1.000 0.793 
CE 1.000 0.818 
CR 1.000 0.713 
ЕП 1.000 0.885 
НЕ 1.000 0.534 
K% 1.000 0.687 
LA 1.000 0.921 
Ма% 1.000 0.832 
ND 1.000 0.782 
SB 1.000 0.730 
ТВ 1.000 0.763 
TH 1.000 0.799 
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续 表 
Initial Extraction 
U 1.000 0.864 
YB 1.000 0.864 


Extraction Method: Principal Component Analysis . 


3. 另 一 个 重要 的 输出 表格 是 “ 主 成 分 的 特征 值 和 主 成 分 所 解释 的 总 方差 百分比 " 表 
(Ж 16-5) 。 前 面 已 经 阐明 ,如 果 分 析 过 程 选择 了 相关 系数 矩阵 ,那么 每 个 主 成 分 的 特征 
值 等 于 该 主 成 分 所 解释 的 方差 值 ,而 全 部 特征 值 的 总 和 等 于 总 方差 ,也 等 于 变量 的 数目 。 
Ж 16-5 的 左 半边 列 出 全 部 14 个 主 成 分 的 特征 值 以 及 每 个 主 成 分 所 解释 的 总 方差 的 百 分 
比 。 表 中 各 主 成 分 是 按照 其 特征 值 的 大 小 排序 的 , 表 的 第 四 列 显 示 至 某 行 前 ,所 有 主 成 
分 所 解释 的 方差 的 累计 百分比 。 因 为 在 要 求 特征 值 大 于 ! 的 条 件 下 只 有 前 3 个 主 成 分 被 
选 , 表 16-5 的 右 半 边 重复 显示 了 前 3 个 主 成 分 的 特征 值 和 所 解释 方差 的 情况 。 可 以 看 到 
当选 取 3 个 主 成 分 时 ,能 解释 78.5% 的 总 方差 ;如 果 选 取 两 个 主 成 分 时 ,能 解释 60.5% 的 
总 方差 。 应 该 说 在 所 讨论 的 实例 中 , 主 成 分 分 析 的 效果 还 是 比较 高 的 。 


表 16-5 特征 值 和 被 解释 的 方差 


Initial Eigenvalues Extraction Sums of Squared Loadings 
Component Total % of Variance Cumulative % Total % of Variance Cumulative % 
t 
1 5.516 39 .400 39.400 5.516 39.400 39.400 
2 2.957 21.122 60.522 2.957 21.122 60.522 
3 2.512 16.944 78 .466 2.512 16.944 78.466 
4 0.810 5.783 84.249 
5 0.604 4.316 88.564 
6 0.361 2.576 91.140 
7 0.277 1.980 93.120 
8 0.231 1.653 94.773 
9 0.190 1.356 96.130 
10 0.166 1.189 97.318 
11 0.144 1.032 98.351 
12 9.909Е-02 0.708 99.058 
13 7.985Е-02 0.570 99.629 
14 5.198Е-02 0.371 100.000 


4. 因子 负载 矩阵 ( 表 16-6) 显 示 各 初始 变量 对 所 选 前 3 个 主 成 分 的 贡献 。 表 中 所 示 
是 相应 变量 和 主 成 分 之 间 的 相关 系数 , 称 为 因子 负载 。 某 个 变量 与 某 个 主 成 分 的 相关 程 
度 越 高 , 即 变量 的 因子 负载 越 大 ,表明 该 变量 对 相应 主 成 分 的 贡献 越 大 。 因 为 在 “0ption 
对 话 框 中 已 提出 相应 要 求 , 表 中 的 变量 , 即 化 学 元 素 是 按 因子 负载 的 大 小 排列 的 ,这 有 助 
于 对 分 析 结 果 的 解释 。 

对 于 所 分 析 的 5 组 原始 瓷 片 的 实例 由 表 16-6 可 见 , 除 Eu 外 的 5 个 稀土 元 素 和 2 个 
放射 性 元 素 对 第 一 主 成 分 有 主要 贡献 , 碱 金属 和 碱土 金属 对 第 二 主 成 分 贡献 最 大 ,Eu,Sb 


226 ”定量 考古 学 


和 Cr 的 贡献 主要 反映 在 第 三 主 成 分 上 上。 顺便 指出 HE 对 第 一 、 第 二 主 成 分 的 贡献 相近 ,Cr 
对 第 三 、 第 二 主 成 分 的 贡献 相近 ,这 种 情况 有 时 会 使 解释 分 析 结 果 有 困难 。 如 有 需要 ,可 
以 通过 旋转 因子 轴 来 改变 变量 的 因子 负载 ,从 而 便于 解释 分 析 结 果 , 当然 因子 轴 的 旋转 
会 带 人 新 的 问题 。 

#166 ”因子 负载 矩阵 


Component 
1 2 3 

ГА 0.913* 0.168 0.236 
ТВ 0.870" - 7.634Е-02 1.703Е-02 
СЕ 0.866” 0.225 0.129 
YB 0.845" - 0.268 0.281 
Мр 0.841* 8.774Е-02 0.258 

U 0.740* -0.159 - 0.540 
TH 0.691“ – 0.418 - 0.383 
НЕ 0.548* - 0.436 -0.211 
Na % - 0.188 0.869* - 0.203 
Ва% 0.153 0.797* 0.366 
K% 0.302 0.722* -0.273 
EU 0.398 0.336 0.784 
SB 一 0.268 一 0.272 0.764“ 
CR - 0.225 - 0.548 0.602” 


因子 负载 也 可 以 通过 散 点 图 来 显示 , 称 为 因子 负载 图 。 因 为 在 本 例 中 提取 了 3 个 主 
成 分 ,因子 负载 图 是 三 维 的 。 在 三 维 的 因子 负载 图 中 观察 14 个 变量 的 分 布 不 很 清晰 ,这 
里 将 三 维 的 因子 负载 图 分 解 成 两 个 二 维 的 因子 负载 图 ,分 别 以 图 16-2 和 图 16-3 显示 。 
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8162 原始 分 析 变 量 对 于 第 一 、 二 因子 的 负 图 16-3 原始 分 析 变 量 对 于 第 一 、 三 因子 的 负 
载 图 载 图 


因子 负载 图 显示 了 变量 间 的 相关 关系 以 及 它们 对 主 成 分 或 主因 子 的 贡献 。 第 一 、 二 
因子 负载 图 清楚 地 显示 ,对 于 由 53 片 原 始 瓷 片 组 成 的 样本 , 除 Eu 外 的 5 个 稀土 元 素 以 及 
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UA Th 二 个 放射 性 元 素 聚 在 一 起 ,并 在 图 的 右边 ,说 明 它们 对 第 一 主 成 分 有 较 大 的 负载 
量 。 这 7 个 元 素 中 的 多 数 有 相近 并 接近 于 0 的 第 二 主 成 分 负载 量 ,说 明 它 们 对 第 二 主 成 
分 贡献 很 小 。K,Na 和 Ba 等 碱 金 属 和 碱土 金属 聚 在 图 的 上 部 ,它们 对 第 二 主 成 分 有 较 大 
的 负载 量 。Sb 和 Cr 对 第 一 和 第 二 主 成 分 的 负载 量 都 是 负 值 , 稀土 Eu 介 于 第 一 、 二 组 元 
素 集 团 之 间 。 第 一 、 三 因子 负载 图 的 解读 相对 比较 复杂 ,较为 明显 的 现象 是 除 Eu 外 的 5 
个 稀土 元 素 仍 聚 在 一 起 ,说 明 这 5 个 元 素 相互 间 的 相关 性 很 强 。 此 外 代表 Sb 和 Cr 的 点 
聚 得 较 近 ,这 与 它们 在 第 一 、 二 因子 负载 图 的 表现 相似 ,Sb,Cr,Eu 以 及 U 对 第 三 主 成 分 有 
较 明 显 的 贡献 。 本 节 后 面 还 将 把 因子 负载 图 与 实体 在 主 成 分 坐标 系 的 散 点 图 结合 在 一 
起 讨论 。 

5. 因子 得 分 系数 矩阵 和 实体 的 因子 得 分 。 

程序 输出 的 因子 得 分 系数 矩阵 如 表 16-7 所 示 。 利 用 这 些 系数 ,根据 实体 的 原始 变量 
值 就 可 以 计算 每 个 实体 的 因子 得 分 , 即 实体 在 主 成 分 坐标 系 中 的 坐标 值 ,SPSS 软件 输出 
的 实体 的 因子 得 分 是 标准 化 的 。 在 “Scores” 对 话 框 中 我 们 已 经 要 求 将 实体 的 因子 得 分 作 
为 新 变量 存 人 数据 文件 。 程 序 自 动 给 新 变量 赋 名 为 “facX-Y”。“X" 表 示 第 几 个 主 成 分 ， 
“Y” 表 示 第 几 次 进行 主 成 分 分 析 的 结果 。 每 次 执行 主 成 分 分 析 后 实体 的 因子 得 分 作为 新 
变量 存 人 数据 文件 时 ,并 不 改写 数据 文件 中 以 前 已 经 存 人 的 实体 因子 得 分 的 数据 。 


表 16-7 ”标准 化 的 因子 得 分 系数 矩阵 


Component 


1 2 3 


Ва% 0.028 0.270 0.146 
СЕ 0.157 0.076 0.051 
CR - 0.041 - 0.185 0.240 
ЕП 0.072 0.114 0.312 
НЕ 0.099 - 0.147 - 0.084 
K% 0.055 0.244 -0.109 
LA 0.166 0.060 0.094 

Na% -0.034 0.294 - 0.081 
ND 0.152 0.030 0.103 
SB -0.049 - 0.092 0.304 
TB 0.158 - 0.026 0.007 
TH 0.125 – 0.141 - 0.153 

U 0.134 - 0.054 -0.215 
YB 0.153 -0.090 0.112 


6. 在 分 析 实 体 在 主 成 分 坐标 系 的 分 布 前 ,简单 说 明 SPSS 主 成 分 分 析 软 件 的 输出 文 
件 中 的 最 后 一 张 表 格 , 主 成 分 (或 主因 子 ) 的 协 方差 矩阵 表 ( 表 16-8) 。 因 为 上 面 的 分 析 过 
程 采用 了 主 成 分 方法 提取 因子 , 即 执行 了 主 成 分 分 析 ,也 未 作 主 成 分 轴 的 旋转 ,因此 主因 
子 的 协 方差 矩阵 就 是 相关 系数 矩阵 。 因 为 主 成 分 轴 是 正 交 的 ,和 抢 阵 对 角 线 上 的 元 素 , 即 
主 成 分 的 方差 总 是 为 1, 而 主 成 分 之 间 的 协 方差 为 0, 也 是 公式 (16-14) 所 要 求 的 。 如 果 用 
别 的 方法 提取 因子 ,或 对 因子 轴 作 了 旋转 ,因子 的 方差 和 协 方差 数值 将 偏离 1 和 0。 
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表 16-8 主因 子 协 方 差 矩 阵 


Component 1 2 3 
1 1.000 0.000 0.000 


2 0.000 1.00 0.00 
3 0.000 0.000 1.000 
(三 ) 实体 在 主 成 分 坐标 系 中 的 分 布 。 


主 成 分 分 析 的 重要 目的 是 观察 实体 在 降 维 后 的 主 成 分 坐标 系 中 的 分 布 。SPSS 软件 
的 主 成 分 分 析 输 出 文件 中 不 包含 这 类 分 布 图 ,需要 根据 程序 输出 并 写 人 数据 文件 中 的 实 
体 的 因子 得 分 , 即 变量 facX-Y 的 数值 ,利用 SPSS 中 的 作 图 命令 画 制 相应 的 分 布 图 。 在 上 
面 的 实例 中 提取 了 3 个 主 成 分 。 图 16-4 和 图 16-5 分 别 是 实体 相对 于 第 一 、 二 主 成 分 和 第 
一 ` 三 主 成 分 的 散 点 图 。 
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实体 在 两 张 图 中 的 分 布 模式 非常 相似 ,在 图 中 可 以 看 到 5 组 原始 网 片 基本 上 各 自 聚 
成 组 群 和 各 组 群 间 的 相互 隔离 。 但 是 也 观察 到 在 各 组 的 边缘 部 位 存在 组 间 实 体 点 的 部 
分 混杂 和 重 杰 ,特别 是 在 第 一 、 二 主 成 分 坐标 图 中 特 牛 山 资 片 点 与 部 分 吴 城 网 片 点 的 交 
混 较 为 严重 。3 个 歧 离 点 在 图 上 已 标明 。 总 的 情况 是 各 组 闻 的 化 学 元 素 组 成 是 有 明显 的 
差异 的 , 正 是 这 种 差异 导致 了 主 成 分 坐标 图 上 各 组 瓷 片 聚 成 基本 分 离 的 组 群 。 这 种 瓷 片 
按照 其 元 素 组 成 分 组 的 结构 在 原始 数据 表 中 是 难以 察觉 的 。 

主 成 分 分 析 中 男 一 个 需要 探讨 的 问题 是 各 变量 (元 素 ) 在 实体 (次 片 ) 分 组 中 的 作用 。 
为 此 我 们 对 比 瓷 片 在 第 一 、 二 主 成 分 坐标 系 的 散 点 图 (图 16-4) 和 第 一 、 二 因子 负载 图 (图 
16-2) 。 在 图 16-4 中 可 见 博 罗 和 黄梅 山 瓷 片 分 布 在 右边 , 即 它们 的 第 一 主 成 分 值 最 大 ,而 
图 16-2 显示 稀土 和 铀 针对 第 一 主 成 分 的 负载 最 大 ,由 此 可 以 推论 ,这 些 元 素 在 博 罗 和 黄 
梅山 瓷 片 的 含量 中 的 应 该 是 相对 偏 高 的 。 表 16-9 列 出 了 5 组 原始 资 片 中 14 种 元 素 含 量 
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的 中 值 , 表 中 元 素 的 排列 次 序 是 和 因子 负载 矩阵 ( 表 16-6) 中 的 次 序 是 一 致 的 。 由 表 16-9 
可 见 , 博 罗 和 黄梅 山 瓷 片 的 稀土 和 铀 针 含 量 确实 比 其 他 3 组 瓷 片 离 。 由 此 我 们 可 以 反 过 
来 推论 : 博 罗 和 黄梅 山 网 片 中 稀土 和 铀 针 的 高 含量 导致 它们 的 第 一 主 成 分 得 分 高 于 其 他 
3 ARH ,从 而 导致 在 第 一 主 成 分 轴 上 博 罗 和 黄梅 山 网 片 与 其 他 地 点 次 片 的 分 组 。 同 样 
的 原理 可 以 确定 碱 金 属 和 碱土 金属 的 合 量 高 使 得 黄梅 山 和 苍 圆 境 瓷 片 有 较 大 的 第 二 主 
成 分 得 分 ,这 两 个 地 点 的 瓷 片 点 处 于 第 一 、 二 主 成 分 坐标 中 的 散 点 图 (图 16-4) 的 上 半 部 
分 。 对 比 第 一 .三 主 成 分 坐标 的 实体 散 点 图 和 第 一 、 三 因子 负载 图 揭示 ,Eu,Sb 和 Cr 的 高 
含量 导致 吴 城 和 黄梅 山 的 网 片 有 较 高 的 第 三 主 成 分 得 分 ,处 于 图 16-5 的 上 半 部 分 。 

从 前 面 的 讨论 中 可 见 , 主 成 分 分 析 不 仅 能 对 实体 群 进行 分 类 ,而且 能 揭示 原始 变量 
在 实体 分 类 中 的 作用 。 主 成 分 分 析 的 这 种 功能 是 聚 类 分 析 所 不 能 企及 的 。 


%169 5 组 原始 资 片 中 14 种 元 素 含 量 的 中 值 ( ша) 
吴 城 яеш Жеш ЖЩ ИМ» 


ГА 48.0 67.3 54.3 50.0 62.4 
ТВ 0.61 1.05 1.01 0.74 1.24 
СЕ 83 110 101 91 109 
ҮВ 3.59 4.86 2.96 2.26 4.93 
ND 39.6 59.4 47.5 38.3 54.9 
U 4.64 5.47 6.66 6.39 8.35 
ТН 19.4 19.7 21.0 21.3 36.6 
НЕ 8.6 9.9 9.1 6.0 13.4 
Ма% 0.28 0.91 0.71 1.41 0.09 
Ва% 0.04 0.08 0.06 0.05 0.03 


K% 1.36 2.18 1.72 2.11 1.83 
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жж 

RR 黄梅 山 Меш EAS ШУ 

EU 1.77 2.53 1.33 1.28 1.27 
SB 2.18 1.70 0.80 0.39 0.80 
CR 94.8 45.8 74.7 37.8 57.9 


在 实体 的 散 点 图 中 可 以 观察 到 存在 个 别 特殊 点 ,它们 偏离 各 自 的 组 中 心 较 远 ,这 些 
歧 离 点 在 图 16-4 和 图 16-5 中 已 被 标志 。 例 如 在 图 16-4 中 吴 城 88 号 实体 处 于 苍 圆 培 实 
体 的 范围 ,这 可 能 是 因为 该 瓷 片 的 KK 含量 偏 高 ,使 其 第 二 主 成 分 的 得 分 偏 高 所 致 。 博 罗 
的 140 号 实体 的 稀土 和 铀 针 含 量 均 偏 高 ,致使 该 实体 点 处 于 图 的 最 右边 。 吴 城 的 92 号 次 
片 也 是 一 个 特殊 点 ,该 盗 片 偏 高 的 Cr 和 Eu 含量 使 得 其 第 三 主 成 分 值 比 吴 城 其 他 次 片 显 
著 偏 大 ,该 实体 处 于 图 16-5 的 最 上 边 。 怎 样 处 理 特 殊 实 体 , 即 是 否 保留 还 是 剔除 这 些 特 
殊 实体 ,由 研究 者 决定 ,我 们 也 将 在 16.4.2 中 加 以 讨论 。 这 里 仅 指 出 ,对 于 所 研究 的 5 组 
ЕН, ШЕЛЕ ТЕЗ 个 特殊 实体 ,保留 的 50 片 瓷 片 在 主 成 分 得 分 散 点 图 的 分 布 ,其 聚 成 
组 群 和 组 群 间隔 离 的 情况 略 优 于 图 16-4 和 图 16-5 所 示 的 结果 。 需 要 指出 这 类 特殊 实体 
在 聚 类 分 析 中 是 不 易 被 发 现 的 ,有 时 它们 可 能 会 导致 不 适当 的 聚 类 结果 ,这 也 是 为 什么 
作者 在 实体 的 分 类 方法 中 更 偏重 于 主 成 分 方法 的 原因 之 一 。 


16.3.2 实例 二 :河南 省 出 土 二 里 岗 期 前 后 的 陶 豆 的 分 期 


20 世纪 80 年 代 作者 等 (1989) 曾 尝试 应 用 主 成 分 分 析 于 考古 器 物 的 分 类 研究 ,具体 
的 对 象 是 河南 省 出 土 的 13 件 自 二 里 头 二 期 至 人 民 公 园 期 的 陶 豆 。 表 16-10 中 列 出 这 13 
件 陶 豆 的 考古 分 期 和 描述 其 形态 特征 的 变量 值 ,图 16-6 显示 了 13 件 陶 豆 的 形状 。 


表 16-10 13 件 陶 豆 的 考古 分 期 和 描述 其 形状 的 测量 数据 


口径 / 最 小 径 / | AR ME 

编号 考古 分 期 通 高 RAE 通 高 BA BA 纹饰 
1 二 里 头 二 期 偏 晚 1.06 0.23 21.7 0.26 0.7 1 
2 二 里 头 二 期 偏 晚 0.77 0.24 24 0.15 0.81 1 
3 二 里 头 四 期 0.63 0.32 25.2 0.12 0.88 1 
4 二 里 头 二 期 0.63 0.28 30.8 0.13 0.9 1 
5 Е ЩЙ 1.35 0.52 13.1 0.29 0.65 1 
6 同 上 1.75 0.62 10 0.42 0.67 1 
7 人 民 公 园 期 1.92 0.62 7.8 0.54 0.38 0 
8 二 里 岗 期 上 层 1.8 0.5 9 0.47 0.4 0 
9 二 里 岗 期 下 层 1.35 0.54 12 0.37 0.58 1 
а 二 里 岗 期 上 层 1.33 0.49 12.6 0.52 0.43 0.8 
Ь 早 于 二 里 岗 期 上 层 1.14 0.52 15.9 0.29 0.67 1 
с 同 上 1.73 0.58 8.5 0.36 0.55 1 
d 同 上 1.57 0.68 11.8 0.25 0.45 1 


为 了 使 用 主 成 分 分 析 对 这 批 陶 豆 作 分 类 或 分 期 研究 ,首先 要 确定 表征 陶 豆 形状 的 属性 ， 
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16-6 13 件 陶 豆 的 外 形 图 


并 对 这 些 属性 作 定 量 描述 。 根 据 第 二 章 的 图 2.2, 选 择 了 6 个 属性 作 定量 描述 ,它们 分 别 
为 :(1) 通 高 , 它 反映 器 物 整 体 大 小 。(2) 口 径 / 通 高 ,这 个 比值 反映 陶 豆 的 胖 瘦 。(3) 最 小 
径 / 最 大 径 , 这 反映 陶 豆 纵 剖 面 “ 胖 首 "起 伏 的 程度 。(4) 盘 深 / 通 高 ,反映 豆 盘 的 相对 深度 
和 (5) 柄 高 / 通 高 ,反映 相对 柄 高 。 上 述 5 个 属性 都 属于 数值 变量 。 第 6 个 属性 反映 纹饰 ， 
是 一 个 名 称 属性 。 为 了 与 前 面 5 个 数值 变量 一 起 作为 主 成 分 分 析 的 分 析 变 量 ,需要 将 名 
称 变量 数值 化 ,为 此 规定 对 于 有 纹 的 陶 豆 ,该 变量 取 值 为 1 ,无 纹 的 陶 豆 ,该 变量 取 值 为 0。 
13 件 陶 豆 的 纹饰 多 数 为 弦 纹 ,只 有 陶 豆 # a 为 绳 纹 , 对 陶 豆 # a 该 变量 取 值 定 为 0. 8.. 13 
件 陶 豆 6 个 变量 的 取 值 列 于 表 16-10, 它 们 是 进行 主 成 分 分 析 的 原始 数据 。 

使 用 SPSS 软件 主 成 分 分 析 程 序 时 规定 如 下 的 选项 :选择 相关 系数 矩阵 ,要求 作 КМО 
和 变量 适宜 度 检验 ,采用 主 成 分 方法 提取 因子 , 主 成 分 轴 不 作 旋 转 ,并 要 求 将 因子 得 分 作 
为 变量 存 人 数据 文件 。 分 析 结 果 如 下 : 

(1) KMO =0.873 ,所 有 变量 的 采样 适宜 度 均 大 于 0.667 ,说 明 整 套数 据 和 每 个 变量 都 
适宜 于 主 成 分 分 析 。 

(2) 第 一 主 成 分 能 解释 78.2% 的 样本 总 方差 ,第 二 主 成 分 能 解释 13.9% 的 样本 总 方 
差 ,两 者 一 起 反映 了 样本 总 方差 的 92.1% 。 因 此 从 6 个 原始 变量 降 维 为 两 个 主 成 分 变量 
时 ,92.1% 的 信息 量 被 保存 。 决 定 选取 主 成 分 的 数目 为 2 个 。 

(3) 当选 取 前 两 个 主 成 分 时 ,程序 显示 6 个 原始 变量 的 共同 度 均 大 于 0.864。 说 明 它 
们 对 于 所 选 的 两 个 主 成 分 都 有 重要 的 贡献 。 这 从 因子 负载 矩阵 也 能 看 出 , 表 16-11 和 图 
16-7 是 程序 输出 的 变量 的 因子 负载 矩阵 和 因子 负载 图 。 表 16-11 每 行 2 个 元 素 的 平方 和 
正 是 该 行 元 素 的 共同 度 。 关 于 变量 的 因子 负载 图 ,将 结合 实体 在 主 成 分 坐标 系 的 散 点 图 
进一步 讨论 。 
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表 16-11 变量 的 因子 负载 矩阵 


Component 
1 2 

口径 通 高 0.964 0.104 

通 高 ~ 0.959 -0.220 
柄 高 通 高 - 0.942 8.072Е-02 
盘 深 通 高 0.915 ~ 0.165 
大 小 径 比 0.838 0.460 

纹饰 -0.644 0.729 


12 -8 -4 .0 4 8 12 
第 一 主 成 分 


图 16-7 陶 豆 的 主 成 分 分 析 中 原始 分 析 
变量 的 因子 负载 图 


由 表 16-11 可 见 ,5 个 描述 陶 豆 几何 形状 的 变量 对 第 一 主 成 分 有 几乎 相等 的 贡献 ,而 
纹饰 和 大 小 径 比 对 第 二 主 成 分 的 贡献 较 大 。 


Ж 16-12 13 件 陶 豆 的 第 一 和 第 二 主 成 分 得 分 


陶 豆 编 号 考古 分 期 第 一 主 成 分 第 二 主 成 分 
1 二 里 头 二 期 偏 晚 -0.80412 - 0.63378 
2 二 里 头 二 期 偏 晚 -1.26747 - 0.5466 
3 二 里 头 四 期 – 1.39335 - 0.26069 
4 二 里 头 二 期 ~ 1.60345 - 0.60617 
5 晚 于 二 里 头 四 期 0.00419 0.72478 
6 同 上 0.54822 1.13511 
7 人 民 公 园 期 1.55216 – 1.40391 
8 二 里 岗 期 上 层 1.20411 -1.80231 
9 二 里 岗 期 下 层 0.248 0.6856 
а 二 里 岗 期 上 层 0.61541 - 0.28013 
b 早 于 二 里 岗 期 上 层 ~ 0.1932 0.57772 
с 同 上 0.5878 1.05712 
а 同 上 0.5017 1.35326 
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图 168 13 件 陶 豆 在 第 一 .二 主 成 分 坐标 系 中 
的 散 点 图 


(4) 根据 实体 的 因子 得 分 ( 见 表 16-12) , 画 出 实体 在 第 一 、 二 主 成 分 组 成 的 坐标 系 中 
的 散 点 图 (图 16-18) 

图 16-8 显示 了 13 件 陶 豆 在 第 一 、 二 主 成 分 组 成 的 坐标 系 中 的 分 布 。 由 图 可 见 13 件 
陶 豆 分 成 3 组 ,第 一 组 处 于 图 的 左边 ,是 4 件 (#1-#4) 二 里 头 期 的 陶 豆 。 图 的 中 央 偏 上 
的 6 件 都 是 早 于 二 里 岗 期 上 层 的 ,组 成 第 二 组 。 而 第 三 组 是 图 的 最 右边 的 两 件 (#7 和 # 
8) ,它们 属于 二 里 岗 期 上 层 或 更 上 晚 的 人 民 公 园 期 。 另 外 #a 陶 豆 属 于 二 里 岗 期 上 层 , 在 图 
上 处 于 第 二 和 第 三 组 之 间 。 因 此 根据 所 选 的 描述 陶 豆 的 6 个 属性 对 13 件 陶 豆 进行 主 成 
分 分 析 ,得 到 的 陶 豆 的 分 组 结果 与 已 知 的 考古 分 期 相符 。 值 得 注意 的 是 第 一 主 成 分 轴 反 
上 映 了 陶 豆 形态 随时 间 变 化 的 过 程 ,也 就 是 说 在 所 研究 的 例子 中 ,第 一 主 成 分 轴 表 现 为 “时 
间 轴 ”, 为 实体 按时 间 排 序 提供 可 能 。 对 照 图 16-8 和 图 16-7, 可 以 看 出 ,从 二 里 头 期 到 人 
民 公园 期 , 陶 豆 的 通 高 和 相对 柄 高 随时 间 降 低 , 最 小 直径 与 最 大 直径 趋 于 接近 , 盘 深 相对 
变 深 和 口径 相对 变 大 的 趋势 。 

上 述 陶 豆 的 例子 是 在 国内 最 早 使 用 多 元 分 析 方 法 于 考古 器 物 的 分 类 或 排序 分 期 研 
究 的 尝试 。 最 近 腾 铬 予 (2004) 较 成 功 地 用 至 类 方法 对 侯 马 乔 村 墓地 的 几 类 陶 髓 进行 了 分 
期 ,她 同样 使 用 器 物 线性 尺度 的 比值 作为 描述 器 物 形状 的 变量 。 


16.4 关于 主 成 分 分 析 的 几 个 问题 


为 了 适当 地 应 用 主 成 分 分 析 方 法 ,下 面 的 一 些 问题 应 引起 注意 。 
16.41 方差 - 协 方差 矩阵 或 相关 系数 矩阵 的 选择 


执行 主 成 分 分 析 应 该 使 用 协 方差 矩阵 还 是 相关 系数 矩阵 是 一 个 由 研究 者 决定 的 问 
题 。 如 果 原 始 数据 筷 仅 是 中 心 化 的 ,那么 其 内 积 系数 矩阵 S 是 变量 的 离 差 矩 阵 ,或 方差 
- 协 方差 矩阵 的 (mn - 1) 倍 。 如 果 互 是 对 离 差 或 者 标准 差 标准 化 的 ,那么 S 将 分 别 是 相 
关系 数 矩 阵 或 相关 系数 矩阵 的 (n - 1) 倍 。 使 用 不 同 的 矩阵 主 成 分 分 析 的 结果 是 不 完全 
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一 样 的 。 如 果 使 用 相关 系数 矩阵 ,那么 在 建立 主 成 分 坐标 系 的 过 程 中 所 有 的 变量 是 等 权 
的 ,实体 的 因子 得 分 , 即 其 主 成 分 坐标 也 是 标准 化 的 。 如 果 原 始 数据 仅 中 心 化 而 没有 进 
一 步 标准 化 并 使 用 协 方差 矩阵 ,那么 各 原始 变量 不 再 是 等 权 的 了 ,方差 大 的 变量 比方 差 
小 的 变量 在 分 析 中 起 更 大 的 作用 。 也 就 是 说 如 果 使 用 协 方差 窍 阵 ,那么 改变 原始 变量 的 
测量 单位 会 改变 主 成 分 分 析 的 结果 。 使 用 协 方差 矩阵 时 ,实体 的 因子 得 分 是 非 标准 化 
的 。 对 于 应 该 选用 哪 一 个 矩阵 ,在 专门 从 事 考 古 资料 的 定量 研究 的 学 者 之 间 并 没有 完全 
的 共识 ,一 般 这 不 是 错 和 对 的 争论 ,而 是 使 用 嘱 个 矩阵 更 合理 。 本 书 的 作者 认为 Wright 
(1989) 的 建议 是 值得 注意 的 。Wright 认为 ,如 果实 体 的 属性 是 测量 数据 ,例如 陶瓷 的 化 学 
组 成 或 者 人 类 或 动物 骨骼 的 测量 指标 , 主 成 分 分 析 时 应 使 用 相关 系数 矩阵 ,因为 不 应 该 
无 根据 地 给 属性 加 权 。 但 是 如 果 是 计数 属性 ,例如 墓葬 中 各 类 器 物 的 百分比 或 频次 数 ， 
那么 可 考虑 使 用 协 方差 矩阵 ,因为 人 们 不 希望 给 常见 的 和 偶 见 的 器 物 以 相等 的 权重 。 此 
外 如 果实 体 的 属性 包含 有 多 种 类 型 的 数据 ,如 测量 数据 ,测量 数据 的 比值 ,数量 化 的 名 称 
变量 等 ,如 16.3.2 小 节 的 实例 二 ,建议 使 用 相关 系数 矩阵 。SPSS 软件 的 主 成 分 分 析 程 序 
默认 的 选择 是 使 用 相关 系数 矩阵 。 


16.4.2 歧 离 实体 的 处 理 


如 果 样 本 中 存在 个 别 偏离 样本 平均 值 很 大 的 实体 ,无 论 是 在 个 别 变量 上 或 者 在 很 多 
变量 上 偏离 ,这些 特殊 的 实体 有 可 能 会 严重 影响 主 成 分 分 析 的 结果 。 因 为 歧 离 实体 的 离 
差 平 方 值 很 大 ,而 主 成 分 分 析 的 过 程 是 基于 对 样本 中 变量 离 差 的 变换 。 但 是 随意 地 将 歧 
离 实体 从 样本 中 剔除 掉 ,似乎 也 缺乏 理由 ,有 时 它们 可 能 反映 某 种 特殊 的 现象 。 一 种 可 
以 考虑 的 处 理 方法 是 , 先 把 特殊 实体 临时 排除 在 外 不 参 予 主 成 分 分 析 过 程 , 仅 用 其 他 实 
体 的 数据 完成 主 成 分 分 析 并 得 到 的 因子 得 分 系数 矩阵 后 ,再 使 用 所 得 到 的 因子 得 分 系数 
矩阵 来 计算 这 些 特殊 实体 的 主 成 分 坐标 。 然 后 对 全 部 实体 作 主 成 分 坐标 的 散 点 图 ,并 进 
行 分 析 。 

” ”如 果 在 主 成 分 分 析 前 不 易 发 现 层 离 实 体 。 可 以 先 对 全 部 实体 进行 主 成 分 分 析 , 在 实 
体 的 主 成 分 散 点 图 上 可 以 观察 和 确定 歧 离 实体 。 然 后 剔除 这 些 歧 离 点 ,再 进行 第 二 次 主 
成 分 分 析 ,观察 二 次 分 析 的 结果 有 多 大 差别 。 


16.4.3 分 析 结 果 的 解释 


对 于 分 析 的 最 终结 果 ,一般 关 注 两 方面 的 问题 。(1) 实 体 在 降 维 后 前 二 .三 个 主 成 分 
坐标 系 中 的 分 布 ,对 实体 进行 分 类 或 排序 ,并 作出 考古 学 意义 的 解释 。 例 如 在 实例 一 中 ， 
考察 比较 原始 瓷 片 在 主 成 分 坐标 系 中 的 分 布 聚 集 情况 与 已 知 的 关于 效 片 产地 知识 间 的 
关系 ,或 者 在 实例 二 中 考察 陶 豆 按 第 一 主 成 分 轴 的 排序 与 陶 豆 的 时 代 间 的 关系 。(2) 探 
讨 原始 变量 的 取 值 是 怎样 影响 实体 在 主 成 分 空间 中 的 分 类 和 排序 的 。 为 此 需要 同时 分 
析 实 体 的 主 成 分 得 分 和 变量 的 因子 负载 。 这 里 可 以 揭示 变量 之 间 的 相关 关系 ,揭示 相互 
闻 相 关 的 变量 组 在 实体 分 类 排序 中 的 作用 。 因 此 综合 分 析 实 体 的 分 布 和 变量 的 因子 负 
载 是 为 了 回答 ,为 什么 实体 的 分 类 或 排序 会 呈现 出 所 观察 到 的 模式 ,从 而 有 可 能 揭示 更 
深层 次 的 考古 学 的 现象 和 规律 。 这 种 变量 的 贡献 和 实体 分 布 的 综合 研究 正 是 主 成 分 分 
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析 的 一 种 重要 的 功能 。 很 遗憾 的 是 ,在 我 国 部 分 已 发 表 的 考古 和 科技 考古 论文 中 , 主 成 
分 分 析 往 往 停留 在 实体 的 分 类 和 排序 阶段 ,没有 进一步 去 探讨 导致 出 现 这 种 或 那 种 分 类 
结果 ,其 背后 隐藏 的 原因 。 

另外 ,有 的 情况 下 主 成 分 分 析 会 出 现 这 样 一 种 结果 , 绝 大 多 数 的 原始 变量 对 第 一 主 
成 分 都 有 较 显 著 的 贡献 ,而 且 都 是 正 贡 献 。 这 是 因为 所 有 的 变量 相互 间 都 正 相 关 所 致 。 
如 果实 体 是 器 物 ,而 变量 是 器 物 的 高 度 , 口 径 , 底 径 等 一 些 器 物 线性 尺度 的 测量 值 ,这 种 
情况 的 出 现 往 往 说 明 第 一 主 成 分 反映 的 是 器 物 总 体 尺寸 (Size) 的 大 小 。 器 物 的 总 体 尺寸 
在 考古 研究 中 往往 并 不 是 最 重要 的 。 为 了 避免 这 种 情况 的 出 现 ,可 以 用 器 物 线性 尺度 测 
量 值 的 比值 来 蔡 代 直接 测量 值 。 在 16.4.2 小 节 的 实例 二 中 ,就 是 用 陶 豆 的 口径 与 通 高 的 
比值 , 盘 深 与 通 高 的 比值 代替 口径 和 盘 深 等 直接 测量 值 。 这 可 以 吕 免 出 现 绝 大 多 数 的 原 
始 变量 对 第 一 主 成 分 都 有 较 显著 的 正 贡献 的 情况 。 


16.44 主 成 分 轴 的 转动 “ 


因子 轴 的 旋转 是 因子 分 析 的 一 个 重要 特点 ,也 是 它 吸引 人 的 优点 。 旋 转 能 够 使 得 原 
来 在 因子 轴 上 负载 量 大 的 变量 的 负载 量变 得 更 大 ,而 原来 负载 量 小 的 变量 的 负载 量 更 
小 ,从 而 方便 于 对 分 析 结 果 的 解释 。 因 子 轴 作 旋 转 的 方法 有 多 种 ,常用 的 方法 有 Varima 
等 。 

主 成 分 分 析 在 保留 大 部 分 方差 的 情况 下 达到 了 用 少数 几 个 主 成 分 来 描述 实体 群 的 
目的 。 但 有 时 这 几 个 主 成 分 与 多 个 原始 变量 有 较 高 的 相关 系数 。 或 者 一 个 变量 同时 与 
两 个 主 成 分 有 相近 的 相关 关系 ,这 会 引起 解释 分 析 结 果 的 困难 , 即 不 易 解 释 哪 些 变 量 对 
于 所 选 的 哪个 主 成 分 作用 最 显著 ,从 而 不 易 解释 哪些 变量 对 于 实体 的 分 类 或 排序 有 主要 
的 贡献 。 为 了 克服 这 个 困难 ,有 的 研究 者 采用 对 主 成 分 轴 作 旋转 处 理 的 方法 。 在 不 改变 
每 个 变量 的 共同 度 , 即 不 改变 每 个 变量 对 所 选 主 成 分 的 总 负载 量 的 前 提 下 作 旋 转 。 

但 是 对 于 主 成 分 分 析 方法 应 用 于 考古 资料 的 研究 中 是 否 需要 旋转 主 成 分 轴 , 文 献 中 
存在 明显 的 分 歧 意 见 。Baxter(1994) 和 Shennan(1997) 这 两 位 在 考古 资料 定量 研究 方面 的 
专家 ,对 于 主 成 分 轴 旋 转 均 持 保留 态度 ,他 们 的 一 个 重要 论据 是 ,旋转 将 使 得 各 主 成 分 轴 
失去 正 交 性 ,而 主 成 分 轴 的 正 交 性 正 是 主 成 分 分 析 的 重要 特点 。 此 外 选择 不 同 的 旋转 方 
法 会 得 到 不 完全 相同 的 结果 , 即 主 成 分 轴 的 旋转 将 增加 对 分 析 结 果 解 释 中 的 主观 性 和 不 
确定 性 。Baxter(1994) 认 为 在 考古 资料 的 主 成 分 分 析 中 ,成 功 进行 主 成 分 轴 旋 转 的 例子 是 
个 别 的 。 本 书 讨论 的 主 成 分 分 析 应 用 实例 中 都 不 作 主 成 分 轴 旋 转 。 当 然 也 不 能 完全 排 
除 主 成 分 轴 的 旋转 ,有 时 所 选 的 前 几 个 主 成 分 中 的 最 后 两 个 主 成 分 有 相近 的 特征 值 , 旋 
转 可 以 拉 开 它们 间 的 差距 ,从 而 确定 在 它们 间 剔 除 哪 一 个 ,达到 进一步 降 维 的 目的 。 

需要 说 明 主 成 分 轴 旋 转 后 ,所 进行 的 还 是 主 成 分 分 析 , 而 不 是 因子 分 析 。 相 当 一 些 
已 发 表 的 论文 中 ,包括 前 面 提 到 的 Binford(1966) 所 撰写 的 分 析 莫 斯 特 石器 组 合 的 文章 , 错 
误 地 将 主 成 分 轴 旋 转 的 主 成 分 分 析 称 为 因子 分 析 。 在 我 国 , 有 的 应 用 主 成 分 分 析 的 科技 
考古 研究 论文 中 ,也 称 自己 的 工作 为 因子 分 析 。 


16.4.5 主 成 分 分 析 和 因子 分 析 * 
主 成 分 分 析 和 因子 分 析 ( 主 因子 分 析 ) 是 两 种 既 有 联系 又 有 原则 差别 的 降 维 方法 ,可 
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惜 在 不 少 文章 中 把 它们 混为一谈 。 为 了 说 明 这 两 种 方法 的 异同 ,下 面 先 简单 介绍 因子 分 
析 的 基本 思想 。 因 子 分 析 是 C. Spearman 于 1904 年 在 美国 心理 学 杂志 中 首先 提出 的 ,后 
来 在 心理 学 研究 中 得 到 广泛 的 应 用 。 辟 如 随机 选择 了 т 个 学 生 , 进 行 了 代数 ,几何 , 物 
理 , 化 学 ,生物 ,地 理 和 地 质 矿物 等 т 个 科目 测验 ,现在 试图 用 逻辑 推理 能 力 , 计 算 能 力 ， 
和 知识 面 等 有 个 潜在 因子 来 说 明 每 个 学 生 т 个 科目 的 成 绩 。 潜 在 因子 的 数目 少 于 考试 的 
科目 (k < m)。 上 述 的 关系 可 以 用 公式 (16-18) 表 达 。 
ху = алда + anfin + ey (16-18) 
AP л 是 第 i 个 学 生 第 j 门 科 目的 成 绩 ,f;, 是 第 i 个 学 生 第 ;个 因子 的 因子 得 分 ,a 是 第 
j 门 科目 对 第 i 个 因子 的 负载 量 , 它 与 i 无关。e; 称 为 误差 因子 或 每 门 科 目的 特殊 因子 。 如 
果 误 差 因 子 很 小 可 以 忽略 不 计 , 那 么 对 每 一 个 学 生 的 评价 ,主要 考察 他 的 推理 能 力 ,计算 
能 力 , 和 知识 面 等 少数 几 个 公共 因子 ,因子 分 析 的 内 容 就 是 要 计算 得 到 变量 的 因子 负载 
Ша, 公式 (16-18) 也 可 以 写成 矩阵 的 形式 
Х = АЕ + Е (16-19) 
可 以 看 出 它 与 主 成 分 分 析 的 基本 公式 了 = XU(16-14) 是 不 同 的 。 为 了 计算 因子 负载 矩阵 
А ,需要 作 一 些 假设 ,包括 对 特殊 因子 的 假设 ,而 主 成 分 分 析 中 计算 变换 矩阵 一 般 不 需 
要 作 什 么 假设 。 因 子 分 析 的 理论 和 方法 经 历 了 一 系列 的 发 展 过 程 ,是 不 断 完善 的 。 如 果 
ВИЕ = т 和 五 =0, 那 么 因子 分 析 与 主 成 分 分 析 等 同 了 。 
总 的 说 来 两 者 间 有 以 下 的 差别 : 
(1) 主 成 分 分 析 有 严格 的 数学 基础 , 主 成 分 是 原始 变量 的 线性 组 合 ;而 因子 分 析 中 原 
始 变 量 是 潜在 的 k 个 公共 因子 的 线性 组 合 加 上 一 个 特殊 因子 ,其 计算 过 程 依赖 于 某 些 假 
设 前 提 , 不 同 的 假设 会 有 不 同 的 分 析 结 果 。 
(2) 原始 数据 的 转换 会 影响 主 成 分 分 析 的 结果 ,但 不 影响 因子 分 析 。 前 者 寻找 方差 
最 大 的 轴 , 而 后 者 是 寻找 相互 间 协 方差 大 的 变量 组 合 。 选 取 主 成 分 的 数目 不 影响 前 面 的 
主 成 分 ,而 选取 因子 的 数目 会 影响 前 面 的 因子 。 
(3) 因子 分 析 的 特点 是 可 以 作 因子 轴 的 旋转 来 改变 分 析 结 果 , 从 而 有 助 于 对 分 析 结 
果 的 解释 。 . 
(4) 如 果 希 望 寻找 数据 中 是 否 存在 潜在 的 ,不 可 直接 测量 的 因素 在 起 作用 ,建议 用 因 
子 分 析 。 如 果 仅 希望 对 多 元 数据 降 维 ,或 者 对 降 维 后 的 正 交 数据 用 其 他 统计 方法 进一步 
分 析 ,建议 使 用 主 成 分 分 析 。 


16.5 对 应 分 析 的 简单 介绍 


对 应 分 析 (Correspondence Analysis) 是 在 主 成 分 分 析 基 础 上 发 展 起 来 的 一 种 多 元 数据 
的 降 维 方法 。 

本 章 前 面 讨论 了 对 原始 数据 矩阵 和 xm (公式 (16-1)) 进 行 的 主 成 分 分 析 , 称 为 正 分 
析 或 R 分析, 得 到 的 mm 个 主 成 分 是 m 个 原始 变量 的 综合 。 也 可 以 对 原始 数据 进行 逆 分 
析 , 称 为 олы ЯНА ЕЕ ЕЛЕНЕ ,得 到 转 置 矩阵 ХІ, ;,) 后 再 进行 主 成 分 分 
析 。 这 时 将 得 到 n 个 主 成 分 ,它们 是 n 个 实体 的 综合 。 如 果 每 个 原始 数据 值 x; > 0 ,而 
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且 对 互 同时 对 变量 和 实体 进行 了 标准 化 处 理 ,得 到 Z ,那么 77 „к js) 和 ZIZ .分 别 是 
数据 标准 化 后 的 变量 和 实体 的 协 方差 矩阵 ,它们 的 不 等 于 零 的 特征 值 的 数量 相等 ,而 且 
数值 相等 。 这 两 个 矩阵 的 特征 向 量 间 也 有 密切 的 关系 。 特 征 值 相等 的 Q 型 和 R 型 分 析 
的 主 成 分 可 以 用 同一 个 坐标 轴 表 示 , 即 可 以 在 同一 个 坐标 系 中 标 出 实体 和 变量 的 散 点 
图 ,从 而 看 出 各 类 实体 的 主要 特征 是 什么 。 这 是 对 应 分 析 的 主要 优点 。 在 本 章 前 面 单 纯 
的 R 分 析 中 ,为 了 了 解 各 类 实体 的 主要 特征 , 即 分 析 各 变量 对 实体 分 类 排序 的 作用 ,我们 
采用 的 方法 是 对 照 实 体 在 主 成 分 坐标 系 中 的 散 点 图 和 因子 负载 图 。 因 为 这 两 张 图 的 坐 
标 轴 单 位 是 不 一 样 的 ,不 能 将 它们 合并 。 对 应 分 析 给 出 实体 和 变量 在 一 起 的 散 点 图 , 便 
利于 同时 分 析 实 体 的 分 类 排序 .变量 间 的 相关 和 这 两 者 间 的 关系 。 但 是 当 实体 数 和 变量 
数 均 很 多 时 ,同一 张 图 上 各 类 的 标记 点 很 多 ,观察 分 析 都 比较 费劲 ,需要 对 散 点 图 作 一 些 
技术 性 的 处 理 ,以 便 观 察 分 析 。 

罗 宏 杰 (1997) 在 古 陶 瓷 化 学 组 成 的 分 析 研 究 中 , 较 多 使 用 对 应 分 析 方 法 ,并 在 他 的 专 
著 中 较 详细 地 介绍 了 对 应 分 析 , 有 兴趣 的 读者 可 以 参阅 。 
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本 章 将 讨论 实体 的 排序 和 分 期 问题 。 排 序 是 将 实体 依据 其 某 个 或 某 几 个 属性 的 取 
值 间 相近 的 程度 来 排列 。 实 体 依据 单个 变量 取 值 情况 的 排序 是 直接 明了 的 ,类 似 于 在 操 
场 上 人 们 按 身材 的 高 矮 排 队 。 如 果 要 求 综合 考虑 实体 多 个 变量 的 取 值 的 相近 程度 ,实体 
的 排序 问题 就 比较 复杂 ,需要 用 专门 的 数学 方法 ,例如 本 章 将 讨论 的 Brainerd-Robinson 方 
法 等 。 实 体 的 分 期 是 将 实体 群 分 成 若干 组 ,然后 再 对 组 排序 ,而且 排 序 的 标准 是 按照 时 
间 的 早晚 。 考 古 学 研究 中 涉及 的 主要 是 分 期 问题 ,包括 器 物 的 分 期 草莽 和 遗址 的 分 期 、 
乃至 文化 的 分 期 等 。 在 考古 学 研究 中 ,实体 的 排序 并 不 是 直接 的 目的 。 但 是 如 果 考 古 实 
体 ,譬如 说 墓葬 , 按 其 在 墓地 的 位 置 , 琶 压 和 打破 关系 , 墓 式 ,出 土 的 器 物 等 特征 ,已 经 是 
排列 有 序 的 ,同时 这 个 “ 序 ” 体 现 了 时 间 的 次 序 。 那 么 通过 对 有 序 实体 的 分 划 , 也 是 可 以 
实现 对 它们 进行 分 期 的 目的 。17.2 节 将 介绍 有 序 实体 的 最 佳 分 划 。 本 章 将 分 为 (1) 实 体 
的 排序 ,(2) 有 序 实体 的 最 佳 分 割 和 (3) 关 于 渭南 史家 墓地 的 分 期 等 3 部 分 来 论述 。 


17.1 考古 实体 的 排序 


最 早 从 事 考古 实体 排序 分 期 研究 的 学 者 之 一 是 著名 的 英国 考古 学 家 皮特 里 。 他 提 
出 了 顺序 年 代 法 ,并 对 埃及 前 王朝 期 的 法 老 墓 ,根据 幕 中 出 土 的 器 物 进行 排序 。 为 此 他 
对 每 个 幕 制作 一 张 卡片 ,上 面 记 录 了 该 墓 出 土 的 器 物 ,然后 来 回 排列 这 些 卡 片 。 他 的 基 
本 出 发 点 是 认为 每 一 种 器 物 都 经 过 出 现 ,推广 ,普及 繁荣 ,衰退 和 消失 等 阶段 。 排 列 卡片 
的 原则 是 :(1) 使 尽 可 能 多 的 器 物 ,特别 是 常见 的 器 物 ,服从 上 述 的 演化 规律 ;(2) 要 求 器 
物 从 出 现 到 消失 所 经 历 的 时 间 尽 可 能 短 , 即 在 排列 好 的 卡片 序列 中 所 占 的 区 间 尽 可 能 
短 。 显 然 排 列 这 些 卡片 时 ,照顾 一 种 器 物 满足 上 述 规律 会 影响 别 的 器 物 的 正确 排列 , 因 
此 皮特 里 的 工作 是 极为 费事 的 ,需要 多 次 来 回 的 排列 以 得 到 一 个 “最 佳 ” 的 序列 。 皮 特 里 
的 工作 是 很 经 典 的 ,他 对 法 老 幕 的 排序 基本 上 为 后 来 的 研究 工作 所 肯定 。 

20 世纪 50 年 代 初 期 ,考古 学 家 Brainerd(1951) 和 统计 学 专家 Robinson(1951) 合 作 创 
ЖҮ B-R 考古 实体 的 排序 方法 。 这 是 最 早 使 用 了 数学 方法 于 考古 实体 的 排序 研究 ,这 个 
方法 的 思路 明确 ,逻辑 严格 。 后 又 经 过 Dempsey(1963) 等 的 改进 发 展 ,得 到 了 相当 广泛 的 
应 用 。 现 通过 Brainerd 和 Robinson 所 提出 的 例子 对 B - R 排序 方法 的 原理 介绍 如 下 。 


17.1.1 Brainerd-Robinson 排序 方法 的 基本 原理 


假设 某 个 慕 地 调查 了 6 个 墓葬 (1, 1, II,IV,V, 和 VI), 其 中 出 土 有 5 种 形式 的 器 物 
(A,B,C,D,E)。 表 17-1 统计 了 这 5 种 器 物 在 6 个 医药 中 出 现 的 百分比 。 这 是 一 张 器 物 
在 墓葬 中 出 现 的 频率 分 布 表 , 表 中 每 一 行 的 和 均等 于 100。 
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表 17-1 5 种 器 物 在 6 个 墓葬 中 出 现 的 百分比 统计 , 茵 莱 按 原 编号 排列 


ЖАЖА А В С р Е 
1 0 40 0 10 50 
П 10 0 50 30 10 
Ш 0 90 0 0 10 
IV 60 0 30 10 0 
у 0 10 10 60 20 
VI 10 20 30 30 10 


现 要 对 这 6 个 幕 莫 排序 。 为 此 首先 要 求 表 中 器 物 的 分 类 是 明确 的 。 排 序 的 原则 或 
要 求 是 :(1) 希 望 序列 中 相 邻 的 幕 葬 间 其 器 物 的 百 分 组 成 相近 ,相隔 较 远 的 墓葬 间 器 物 的 
百 分 组 成 相差 也 较 大 ;(2) 对 于 所 确定 的 墓葬 序列 ,每 种 器 物 经 历 了 发 生 、 发 展 、 极 感 和 淘 
汰 的 正常 演化 过 程 。 具 体 的 排序 过 程 和 对 排序 结果 的 检验 大 致 可 分 为 以 下 三 步 。 

1. 为 了 实现 上 述 第 一 个 要 求 ,首先 要 对 两 个 草草 间 器 物 组 成 的 相近 或 相 异 程度 作 定 
量 的 描述 , 即 定义 实体 间 的 相似 或 相 异 系数 ( 见 第 十 四 章 14.3 节 )。B-R 方法 定义 第 i 和 
第 j 个 墓葬 间 的 相似 系数 5, 为 


5 
$ = 200 - У) I Pa - Pa | (17-1) 
k=1 


式 中 Р, 是 第 上 种 器 物 在 第 ; 个 幕 莫 中 所 占 的 百分数 , 即 表 17-1 ERPE i TE k yA 
格 的 内 容 。 公 式 (17-1) 求 和 号 后 面 的 每 一 项 定量 地 反映 了 某 类 器 物 在 第 ; 和 第 1 个 墓 匡 间 
相 异 的 程度 。| Pa- Рр | ERK, RR k ARDER i 和 7 医药 间 的 百 分 合 量 的 差 值 也 越 
大 ;如 果 该 类 器 物 在 两 个 墓葬 中 的 百分数 是 相等 的 ,那么 这 一 项 为 0 对 5 种 器 物 求 和 的 值 
是 第 i 和 j 个 墓葬 间 总 体 相 异 程度 的 度量 , 即 两 座 墓葬 间 的 相 异 系数 。 如 果 两 个 墓葬 的 器 
物 组 成 完全 一 致 , 求 和 号 后 面 的 每 一 项 均 为 0, 总 和 也 为 0; 如 果 两 个 墓 茸 的 器 物 组 成 完全 
相反 , 即 如 果 某 种 器 物 在 一 个 墓葬 中 出 现 , 它 必然 在 另 一 个 幕 葬 中 缺失 ,那么 这 个 总 和 应 
该 等 于 200。 前 面 已 经 说 明 ,每 个 幕 莫 中 各 器 物 出 现 频率 的 和 为 100% , 17-1 各 行 的 
和 为 100。 因 此 相 异 系数 是 在 0 到 200 间 变 动 ,数值 您 大 ,表示 两 各 幕 芋 的 器 物 组 成 的 差 
别 傅 大。 公式 (17-1) 中 将 “200” 被 所 求 得 的 总 和 去 减 ,两 者 之 差 也 是 在 0 到 200 间 变 动 ,不 
过 现在 当 两 个 墓葬 的 器 物 组 成 完全 一 致 时 , 差 值 为 200; 而 当 两 个 幕 芋 的 器 物 组 成 完全 相 
反 时 , 差 值 为 0。 因此 公式 (17-1) 给 出 幕 莫 之 间 的 相似 系数 , 墓 大 间 的 器 物 组 成 愈 相似 ， 
公式 (17-1) 给 出 的 数值 愈 大 。 因 为 这 种 根据 器 物 出 现 频率 表征 幕 莫 间 相 似 程度 的 方法 是 
Brainerd 和 Robinson 首先 提出 的 ,公式 (17-1) 计 算 的 结果 称 为 Brainerd-Robinson 系数 (5;) 
下 面 我 们 计算 第 1,2 WEH B-R ЖЖ, 5; = 200 – (10 – 10 1+140-01+10 – 501+ 
110 -301+150-101) = 200- 160 = 40 依 次 计算 全 部 B-R 系数 。 对 于 6 个 墓 莫 ,应 该 
有 (6+5+4+3+2+1)=21 个 B-R 系 数 。 将 它们 写 人 下 面 的 表格 中 ,得 到 墓葬 未 经 重 排 
的 B-R ЖЖ 5; Ro 

这 实际 上 是 一 个 6x6 的 对 称 和 矩阵 , 主 对 角 线 两 边 的 元 素 是 相等 的 , 即 有 5, = 5,18 
此 只 需 写 出 左下 三 角 的 元 素 即 可 。 
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表 17-2 实体 间 的 B-R 系数 Sy 表 ,实体 按 原 编号 排列 
1 П Ш IV у ҮІ 


1 200 

П 40 200 

Ш 100 20 200 

IV 20 100 0 200 

у 80 100 40 40 200 

VI 80 160 60 100 120 200 


2. 第 二 步 是 重新 排列 蓝 草 的 次 序 ,使 得 器 物 组 成 相近 的 墓葬 , 即 B-R 系数 大 的 墓葬 
相 邻 排列 。 这 需要 规定 正确 排列 的 标准 。 正 确 的 排列 应 该 使 得 数值 大 的 B-R 系数 靠近 
主 对 角 线 ,而 数值 小 的 B-R 系数 在 左下 角 。 这 是 因为 i -j= 1 的 5; 是 直接 相 邻 两 墓葬 的 
B-R 系数 ,它们 应 该 数值 大 , -7 = 2 的 5, 是 中 间 有 一 墓 鞠 相隔 的 两 医药 的 B-R 系数 , 它 
们 应 该 次 大 。 而 S16 是 正确 排列 的 首尾 两 个 墓 蔡 的 B-R 系数 , 它 应 该 最 小 。 用 严格 的 数学 
语言 来 表述 上 面 的 思想 是 要 求 : 

(1)Ж 17-2 中 每 一 条 平行 于 主 对 角 线 的 斜 线 上 各 5, 的 平均 值 М, 按照 离 主 对 角 线 的 
远近 应 该 单调 下 降 。 其 中 


М, = п-із 11 Sa + Suya +77 + 8.(а-ікі) 1, Сі =1>n,i = 1 对 应 主 对 角 线 ) 
(17-2) 
单调 下 降 是 要 求 М; > М; ,1›(ї = 1-> п) (17-3) 
(2) 这 些 М, 的 和 最 小 , 即 
D = Ум, = тіп (17-4) 


表 17.2 ЧЖИ ЕНШ БИЙ Е НЕЛИ, 可 以 计算 得 到 М, -> М, 相应 为 200,44,85,60， 
120,80, 显 然 不 满足 公式 (17-3) 的 要 求 , 后 面 可 见 到 这 6 个 M, 值 之 和 D = 589 也 不 满足 公 
趟 (17-4)。 因 此 蔓草 需要 重新 排列 ,使 得 公式 (17-3) 和 (17-4) 的 要 求 得 到 满足 ,这 里 的 计 


算 工作 量 是 很 大 的 ,在 所 分 析 的 例子 中 有 6ER MAS! „ (6x5x4x3x2x1 


= 320 种 不 同 的 排列 方法 。 如 果苗 蔡 数 更 多 ,可 能 的 排列 方法 将 按 阶乘 函数 (n!) 增加 。 因 
此 只 能 由 计算 机 来 寻找 满足 B-R 准则 的 排列 次 序 。 

根据 公式 (17-3) 和 (17-4) 规 定 的 原则 ,对 表 17-2 的 6 个 幕 葬 进行 重新 排列 得 到 表 17- 
3 所 示 的 排列 次 序 。 

可 以 看 出 在 表 17-3 中 数值 大 的 B-R 系数 均 处 于 主 对 角 线 的 邻近 , 表 的 左下 部 位 集中 
了 数值 小 的 B-R 系数 。 可 以 计算 Mi -> Me 相应 为 200,112 ,80,47,20 和 0, 满足 公式 
(17-3) 的 要 求 。 这 6 个 М, Яр = 459, 明 显 小 于 表 17-2 的 D = $89。 可 以 证 明 表 17-3 的 
D = 459 是 满足 式 (17-4) 的 。 
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表 17-3 实体 按照 公式 (17-3) 和 (17-4) 要 求 曹 蔡 重新 排列 后 的 B-R 系数 表 


ш 1 У УІ П ІҮ 
Ш 200 
І 100 200 
у 40 80 200 
VI 60 80 120 200 
П 20 40 100 160 200 
ІУ 0 20 40 100 100 200 


3. 第 三 步 是 检验 ,对 于 表 17-3 所 列 出 的 墓葬 排序 ,5 种 器 物 是 否 体 现 了 从 出 现 、 推 
广 、 普 及 繁荣 、 豪 退 和 消失 的 发 展 规律 。 为 此 建立 表 17-4, 观察 墓葬 按照 B- R 准则 要 求 
排列 时 5 种 器 物 的 频率 分 布 
表 17-4 5 种 器 物 在 6 个 蓝 莫 中 出 现 的 让 分 比 统计 ШЕЕ B- R 准则 要 求 排列 


Ш І у VI П ГУ 
А 0 0 0 10 10 60 
В 90 40 10 20 0 0 
С 0 0 10 30 50 30 
р 0 10 60 30 30 10 
Е 10 50 20 10 10 0 


为 了 观察 的 方便 , 表 17-4 与 表 17-1 相 比 , 行 与 列 作 了 转 置 。 表 17-4 中 每 一 行 记 录 了 
每 种 器 物 在 6 个 按 B-R 准则 排列 的 墓葬 中 出 现 的 频率 ,由 频率 的 变化 可 见 , 每 种 器 物 经 
历 了 从 出 现 、 发 展 到 消失 的 过 程 。 因 此 B-R 排序 的 第 二 个 要 求 也 是 被 满足 的 。 

ВТАА АН ТЕН) B-R 排列 次 序 , 却 不 能 确定 排列 次 序 的 哪 一 端 时 代 早 ， 
哪 一 端 时 代 晚 。 需 要 有 另外 的 证 据 来 建立 医 芋 的 排列 次 序 与 时 代 早 晚间 的 对 应 关系 , 辟 
如 说 一 对 医 茸 的 释 压 关系 等 。 一 般 情况 下 ,这 种 对 应 关系 是 不 难 建立 的 。 这 里 为 讨论 的 
TE, RREZ Ш 是 最 早 的 ,相应 墓葬 ТУ 就 应 该 是 最 晚 的 了 。 这 样 从 表 17-4 就 可 以 认 
为 “A" 是 晚期 器 物 , 它 在 墓葬 序列 的 中 期 才 出 现 。 器 物 “B” 在 幕 芋 序列 的 早期 已 处 于 繁荣 
阶段 ,在 墓葬 序列 的 中 晚期 衰退 消失 , 它 应 是 早期 的 器 物 。 器 物 “D" 和“E" 在 所 讨论 的 摹 
葬 序 列 中 基本 经 历 了 从 出 现 到 消失 的 全 过 程 。 

Brainerd-Robinson 方法 根据 考古 实体 的 某 些 属性 出 现 的 频率 对 实体 进行 排序 ,的 确 提 
供 了 一 种 客观 ,而 且 和 定量 的 方法 。 它 得 到 了 西方 众多 考古 学 家 的 认同 、 使 用 和 进一步 的 
发 展 。B-R 方法 和 其 改进 方案 至 今 还 得 到 应 用 。 但 使 用 B-R 方法 ,也 需要 注意 :(1) 因 为 
方法 基于 “频率 ” ,属性 出 现 的 频次 数 必须 足够 大 。 例 如 在 上 面 讨论 的 例子 中 ,每 种 器 物 
在 墓葬 中 的 数量 要 足够 多 ,这 样 “频率 ” 才 稳 定 和 具有 统计 学 的 意义 ;(2) 在 上 面 讨论 的 例 
子 中 ,认为 墓葬 的 B-R 系列 与 时 间 过 程 相对 应 。 这 要 求 这 些 墓 车 属于 同一 或 近邻 地 区 时 
才 成 立 ,这 样 墓葬 中 器 物 组 成 的 变化 仅 取决 于 时 间 因 素 。 

在 我 国 公开 发 表 的 应 用 B-R 方法 于 考古 实体 排序 尝试 的 工作 有 :(1) 本 书 作者 (1983) 
对 华北 几 个 晚 更 新 世 动 物 群 的 排序 和 裴 安平 等 (1991) 对 江陵 雨 台山 34 座 日 用 器 组 合 齐 
全 的 和 127 座 仿 铜 礼 器 组 合 齐全 的 医药 进行 的 年 代 序 列 分 析 。 下 面 简要 介绍 这 二 项 研究 
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工作 。 
17.1.2 B-R 排序 方法 应 用 实例 之 一 :我 国 华北 几 个 晚 更 新 世 动 物 群 的 排序 


我 们 知道 每 个 地 区 动物 群 的 组 成 是 随时 间 不 断 变化 的 ,古老 属 、 种 的 灭绝 ,新 种 的 出 
现 繁 入 。 因 此 动物 群 的 组 成 反映 了 它 的 时 代 。 比 较 同 一 地 区 动物 群 之 间 动 物种 属 组 成 
的 异同 有 可 能 对 动物 群 按照 其 时 代 的 早晚 排序 。 这 里 尝试 用 B-R 方法 对 我 国 华北 地 区 
属于 晚 更 新 世 的 6 个 主要 的 化 石 动物 群 进行 排序 ,它们 是 丁 村 、 许 家 窗 、 萨 拉 乌 苏 、 峙 峪 、 
小 南海 和 山顶 洞 等 6 个 动物 群 。 为 了 对 比 的 方便 ,将 中 更 新 世 晚 期 的 古老 种 和 现存 的 现 
生 种 与 上 述 6 个 动物 群 一 起 进行 排序 ,这 样 参加 排序 的 动物 群 共 8 个。 选择 了 食肉 .长 
Ж ар НИҢ 4 目的 36 种 动物 作 分 析 , 其 中 绝 大 多 数 动物 能 鉴定 到 种 。 哨 齿 目 、 免 形 目 
和 食 虫 目的 动物 因 各 种 原因 未 被 选择 。 因 为 难以 统计 每 个 动物 群 中 每 种 动物 的 出 现 频 
次 ,只 是 统计 某 种 动物 是 否 在 某 动物 群 出 现 。 后 者 属于 二 元 变量 。 表 17-5a 统计 了 36 种 
动物 在 8 个 动物 群 中 的 分 布 。 


Ж 17-5а 36 种 动物 在 8 个 华北 动物 群 中 的 分 布 ,1 代表 存在 ， 
“sp" 代 表 只 能 鉴定 到 属 


许 家 窑 | 萨 拉 乌 苏 | 峙 峪 | 小 南海 


1 1 


一 -二 -一 


棕熊 


洞 能 
阿尔 泰山 
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北京 斑 鹿 


МЕН 
ЦЕХА 
KAF 
КЛЕ 


因为 动物 种 的 存在 与 否 属 二 元 变量 ,不 能 用 17.1 节 讨 论 的 B-R 相似 系数 来 表征 实体 
(动物 群 ) 间 的 相似 程度 ,需要 使 用 二 元 变量 间 的 匹配 系数 ( 见 14.3.2)。 若 某 种 动物 & 在 
i 和 j 两 个 动物 群 中 都 出 现 或 者 都 未 出 现 ,那么 定义 该 动物 种 在 i 和 j 两 个 动物 群 中 的 匹配 
系数 Ки = 1; 如 果 某 种 动物 正 仅 在 ; 和 7 两 个 动物 群 中 的 一 个 出 现 , 而 在 男 一 个 动物 群 没 
有 出 现 , 那 么 定义 该 动物 在 i 和 j 两 个 动物 群 中 的 匹配 系数 Ra = 0。 由 于 个 别 动物 只 能 鉴 
别 到 属 ,相应 定义 其 匹配 系数 Ra = 0.5 或 0。 两 个 动物 群 中 的 总 匹配 系数 是 对 所 有 的 动物 


种 求 和 并 乘 以 2, 为 К, = 2 x >) Rs, 其 值 在 0 到 72 之 间 变 化 ,R; 是 14.3.2 节 讨论 的 简单 


匹配 系数 。 使 用 简单 匹配 系数 而 不 使 用 Jaccard 系数 ,是 因为 所 分 析 的 6 个 动物 群 所 统计 的 
动物 个 体 数 其 多 ,因此 在 某 个 动物 群 中 未 观察 到 某 种 动物 可 以 认为 该 动物 种 的 不 存在 。 

计算 了 8 个 动物 群 两 两 之 间 的 匹配 系数 后 ,可 以 根据 B-R 排序 原则 , 即 利用 公式 (17- 
3) 和 (17-4) 对 它们 进行 排序 。 得 到 它们 的 排列 次 序 为 古老 种 一 丁 村 一 许 家 窗 一 萨 拉 乌 苏 
一 峙 峪 一 小 南海 一 山顶 洞 习 现 生 种 。 表 17-5b 是 这 8 个 动物 群 按照 B-R 准则 排序 的 相似 
系数 表 


Ж 17-5b 按照 B-R 准则 排列 后 的 华北 地 区 8 个 上 晚 更 新 世 动 物 群 之 间 的 相似 系数 表 
古老 种 ТН ИЖЕ ЫЙ Ей ДЫҢ ШИН ЖЕН 


古老 种 72 

丁 村 44 72 

FRE 43 50 72 

萨 拉 乌 苏 36 44 61 72 

峙 峪 39 45 56 61 72 

小 南海 35 38 48 51 54 72 

ШІ 16 18 24 26 30 41 72. 

现 生 种 12 20 25 28 27 33 60 72 


在 表 17-5 中 ,数值 大 的 相似 系数 集中 在 主 对 角 线 的 邻近 , 而 且 从 М, 到 М, 的 数值 是 
单调 下 降 的 ,依次 为 72,53,42.8,36.4,32.3,26,18 和 12, 公 式 (17-3) 的 要 求 得 到 满足 。 可 
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以 证 明 表 17-5 的 DD = >M; = 292.5 是 最 小 值 , 满足 公式 (17-4) 的 要 求 。 这 个 排序 结果 


能 为 旧 石 器 考古 学 家 所 接受 并 与 已 知 的 测 年 数据 相符 (chen et al 1991)。 

在 完成 了 动物 群 的 排序 后 ,可 以 直观 地 观察 每 种 动物 出 现 或 灭绝 在 时 代 上 与 哪个 动 
物 群 相对 应 。 因 为 在 表 17-5 中 动物 群 是 按照 B-R 准则 排列 的 ,由 表 可 见 , 例 如 最 后 斑 岩 
狗 最 早出 现 于 萨 拉 乌 苏 动 物 群 ,在 山顶 洞 动物 群 还 存在 ,但 现在 已 灭绝 了 。 又 例如 普 氏 
野马 从 丁 村 动物 群 时 代 一 直 延 续 到 小 南海 动物 群 ,但 在 山顶 洞 动物 群 中 已 见 不 到 它 的 存 
在 。 

从 上 面 的 例子 可 见 , Brainerd-Robinson 方法 应 用 于 某 个 地 区 动物 群 的 排序 是 可 行 的 ， 
而 且 能 给 出 与 实际 测 年 数据 相符 合 的 序列 。 


17.1.3 B-R 排序 方法 应 用 实例 之 二 :江陵 雨 台山 楚 茵 的 排序 与 分 期 


裴 安 平等 (1991) 曾 用 黄 其 网 根据 国外 程序 改编 的 (计算 机 考古 年 代 系 列 分 析 系 统 ) 软 
件 (CASA Computer Archaeological Seriation Analysis ) 对 湖北 江陵 雨 台山 34 座 日 用 器 组 
合 齐全 和 127 座 仿 钢 礼 器 组 合 齐全 的 楚 莫 分 别 进行 了 年 代 序 列 分 析 。 裴 安平 等 所 以 选择 
十 台山 楚 墓 作为 CASA 对 象 ,是 因为 他 们 认为 湖北 省 江陵 博物 馆 (1984) 的 原始 研究 报告 
《江陵 雨 台山 楚 医 (以 下 简称 《报告 )) “资料 完整 ,分 期 序列 明了 ,对 传统 考古 类 型 学 方法 
的 成 功 运用 获 学 术 界 公认 ”。 

以 34 座 日 用 器 组 合 齐全 的 墓 为 例 , 出 有 8 种 器 物 , 其 中 的 遍 又 可 分 为 4 型 。 对 于 В 
型 遍 、 重 和 长 颈 壶 等 可 进一步 分 为 I 一 IV 等 4 式 ,其 他 多 数 器 物 也 能 分 成 3 式 或 2 式 。 因 
此 可 参与 比较 的 器 物 式 别 共 26 种 。 对 莫大 而 言 ,有 的 墓葬 间 的 器 物 式 别 的 组 合 是 完全 
一 致 的 ,因此 34 座 墓 莫不 同 的 日 用 器 组 合 为 22 组 。 

CASA 接受 原 《 报 告 》 对 器 物 的 分 型 定式 ,并 在 此 基础 上 根据 器 物 组 成 间 的 相似 程度 
对 22 组 组 合 进行 CASA 排序 。 裴 安平 等 对 CASA 的 排序 结果 作 了 分 析 ,注意 到 出 现 2 Й 
倒序 ,它们 是 (1) 出 Шз B 型 部 的 M512 处 于 出 ПХВ ВЛ ВЕ, (2) НТУ 
В Ж БАП] M483 处 于 几 座 出 Шох, B 型 裔 的 墓前 (鉴于 篇 幅 , 这 里 未 列 出 裴 文中 的 “日 用 器 
组 合 齐全 募 CASA 年 代 分 析 序 列表 ”, 感 兴趣 的 读者 可 查阅 原文 )。 但 倒序 的 墓葬 仅 此 2 
座 , 占 总 墓葬 数 $.8% 。 在 对 这 2 座 墓 葬 的 序列 位 置 作 了 调整 后 ,B 型 唱 的 各 式 不 再 有 倒 
序 现象 ,而 且 与 原 ( 报 告 ? 对 34 座 幕 药 的 分 期 也 一 致 了 。 同 时 他 们 指出 原 人 报告》 中 对 22 
组 日 用 器 组 合 的 排序 中 ,出 现 倒序 的 “不 止 5 例 ”。 由 此 他 们 的 结论 是 “CASA 的 年 代 分 析 
序列 “内 在 逻辑 关系 较 严 说, 各 种 器 物 型 式 的 排比 顺畅 , 倒 排 现象 被 降 到 最 低 限 度 ”。 本 
书 作者 注意 到 M512 出 MABAS, ХН ПКК АЯ, (НАН ЕЕН ПАВЕ 
ARKAT, KERT M512 的 位 置 使 B Ж в НУ НЕЗ, Д е С ЙЯ 
现 倒序 。 对 于 M483 也 有 同样 的 情况 ,这 种 矛盾 现象 的 存在 说 明 在 排序 基本 合理 的 情况 
下 出 现 个 别 的 倒序 现象 是 难免 的 ,也许 在 排序 过 程 中 应 进一步 考虑 B 型 遍 与 长 颈 壶 之 间 
哪 种 器 物 更 具 典 型 性 ,从 而 对 它们 加 不 等 的 权重 。 

裴 等 对 127 座 仿 铜 礼 器 组 合 齐全 的 楚 幕 的 32 种 组 合 的 排序 中 仅 M555 出 现 器 物 式 别 
的 倒序 , 优 于 原 《报告 》 所 排 的 序列 。M555 原 《 报 告 ) 定 为 第 六 期 , 即 最 晚期 ,但 它 却 处 于 
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CASA 序列 的 中 部 ,两 种 分 期 矛盾 。 该 墓 出 土 I 式 В ҖИЛ ТУ 式 敦 和 V 式 A 型 壶 等 晚期 
器 物 , 但 也 含有 I 式 久 。I 式 贸 仅 在 三 期 (早期 ) 的 M472 中 有 发 现 。CASA 综合 M555 同时 
出 早期 和 晚期 的 器 物 的 现象 ,将 其 排 在 序列 的 中 央 。 也 就 是 说 CASA 排序 方法 可 能 没有 
充分 考虑 "以 晚期 因素 确定 地 层 和 墓葬 时 代 的 类 型 学 "原则 。 这 点 可 能 是 目前 国内 使 用 
多 元 数量 排序 方法 的 共同 缺点 ,它们 将 所 有 式 别 的 器 物 是 同等 看 待 的 。 同 渭 清 (1991) 曾 
批评 朱 乃 诚 (1984) 应 用 概率 分 析 方 法 于 渭南 史家 幕 地 的 分 期 中 没有 适当 考虑 考古 类 型 学 
的 这 个 原则 。 裴 等 将 M555 在 序列 中 的 位 置 作 了 调整 ,并 正确 指出 “CASA 所 排序 列 只 具 
有 统计 学 基础 上 的 逻辑 真实 性 ,不 能 脱离 研究 者 对 结果 的 分 析 和 判断 ”。 此 外 CASA 排序 
在 原 《 报 告 ) 将 127 座 仿 钢 礼 器 组 合 齐全 的 幕 匡 分 成 四 期 的 基础 上 ,在 三 四 期 之 间 和 四 五 
期 之 间 分 别 揪 和 人 了 两 段 ,而 且 认为 这 两 段 的 诸 幕 基 “器 物 组合 关 系 复 杂 ,器 物 形 式 多 样 ， 
具有 明显 的 承前启后 性 ”。 

总 之 ,CASA 用 于 考古 实体 的 排序 分 期 ,虽然 其 基础 材料 还 是 基于 传统 类 型 学 对 器 物 
的 分 型 定式 ,本身 还 有 需 改进 之 处 ,但 它 无 疑 是 传统 考古 学 分 期 方法 的 一 种 有 价值 的 补 
充 ,特别 是 当 参 与 排序 的 实体 和 描述 实体 的 变量 的 数量 均 多 ,信息 量 大 而 又 缺乏 地 层 关 
系 时 ,手工 排序 的 工作 量 十 分 庞大 ,往往 会 顾此失彼 和 难免 引信“ 隐 合 的 主观 因素 ”。 考 
古 工作 者 希望 寻找 一 种 既 能 发 挥 考古 学 研究 方法 科学 性 的 长 处 ,又 能 尽量 考虑 全 面 并 借 
助 计算 机 帮助 的 数学 方法 应 用 于 考古 实体 的 排序 分 期 。 可 惜 因为 某 些 客观 原因 CASA Ж 
件 未 得 到 进一步 的 改进 和 在 其 他 遗址 或 墓地 中 的 应 用 。 


17.2 排序 与 分 期 的 关系 一 一 有 序 实体 的 最 佳 分 割 


对 器 物 、 幕 毕 、 坦 址 乃至 考古 学 文化 的 分 期 是 考古 研究 中 的 重要 内 容 。 而 17.1 节 所 
讨论 的 实体 的 排序 问题 ,与 对 实体 的 分 期 是 紧密 相关 的 。 排 列 有 序 的 一 系列 实体 比 将 同 
一 批 实体 粗 欠 地 分 为 少数 几 段 或 几 期 包含 有 更 多 的 信息 。 考 古 分 期 可 以 是 建立 在 排序 
的 基础 之 上 的 。 如 果 排 列 的 次 序 反 映 时间 的 早晚 ,那么 在 不 改变 实体 的 排列 次 序 的 前 提 
下 ,将 实体 序列 划分 成 若干 段 就 是 实现 了 实体 的 分 期 。 

有 序 实 体 的 合理 分 划 或 分 割 需要 确定 两 个 问题 :(1) 分 割 成 几 段 ;(2) 怎 样 确定 分 割 
点 。 因 此 确定 分 割 的 段 组 数目 和 寻找 分 割 点 也 就 是 有 序 实体 最 佳 分 割 所 要 研究 的 命题 。 


17.2.1 有 序 实体 最 佳 分 割 的 原理 和 计算 过 程 


首先 讨论 按 单 参数 排序 的 实体 的 最 佳 分 割 问 题 。 假设 有 п 个 实体 ,它们 已 根据 其 某 
个 参数 xili = 1,2…n) 的 取 值 排列 有 序 : 
Xis Xa Xis" Kn (17-5) 
xi 称 为 排序 参数 。 现 要 对 这 个 序列 做 分 割 。 寻 找 最 佳 分 割 点 需要 先 确 定 将 排列 有 序 的 实 
体 划分 为 几 段 。 第 一 步 处 理 最 简单 的 情况 ,在 将 序列 划分 为 2 段 的 要 求 下 应 怎样 寻找 最 佳 
分 割 点 的 位 置 , 设 分 割 点 的 位 置 是 О ,确定 分 割 点 后 可 以 分 别 计算 2 段 各 自 的 离 差 平方 
和 ,并 将 它们 相 加 得 到 总 离 差 平方 和 59,59 的 表达 式 是 
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(2) 


59 = У\(а Pa У) (а - 020) (17-6) 
іші ККЕ 


式 中 的 xf?) ЖАС 分 别 为 排序 参数 在 第 一 段 和 第 二 段 的 平均 值 。 显 然 由 于 分 割 点 的 位 置 
ХӘ 不 同 ,两 段 各 自 的 离 差 平方 和 ,以 及 总 离 差 平方 和 SO 的 值 是 不 同 的 。 ЖЕБЕ 
点 x 名 的 原则 是 使 得 5 中 最 小 ,为 5 外。 这 个 分 割 原则 的 含义 是 使 各 段 内 部 实体 间 的 差 
别 最 小 ,而 不 同 段 的 实体 间 的 差别 尽量 拉 大 。 当 然 寻找 最 佳 分 割 点 涉及 相当 的 计算 工作 
量 , 有 时 可 以 借助 于 SPSS 软件 的 均值 分 类 程序 。 

第 二 步 将 序列 划分 为 3 段 ,相应 由 两 个 分 割 点 O 和 x8)。 分 别 计算 3 段 各 自 的 高 差 
平方 和 后 ,再 相 加 得 到 总 离 差 平方 和 SO, SO 的 表达 式 是 


(3) (3) 
SO = Din -aP D ба - + D а) (17-7) 
式 中 的 xf3) a M 分别 为 排序 参数 在 第 一 段 .第 二 段 和 第 三 段 的 平均 值 。 显 然 分 为 3 
段 时 的 总 离 差 平方 和 SO 也 是 因 2 个 分 割 点 位 置 的 变动 而 变化 的 。 确 定 最 佳 分 割 点 
ХО ЯР) ?的 原则 也 是 使 得 总 离 差 平方 和 500 最 小 ,为 x 人 ,x 人 显然 是 小 于 «Ой, 
当然 分 为 3 段 的 计算 工作 量 比分 为 2 段 更 大 。 

可 以 接着 分 划 4 段 .5 段 ,要求 划分 4.5 段 时 的 总 离 差 平方 和 LM x 人 最 小 来 确定 
相应 的 诸 最 佳 分 割 点 的 位 置 。 上 面 的 讨论 解决 了 在 已 知 分 段 数 的 条 件 下 寻找 最 佳 分 制 
点 的 问题 。 但 是 一 个 有 序 排列 的 实体 组 最 佳 应 分 为 几 段 呢 。 显 然 分 段 的 数目 您 多 ,总 离 
差 平方 和 愈 小 。 如 果实 体系 列 不 分 段 ,总 离 差 平 方 和 最 大 ,而 如 果 将 由 na 个 实体 组 成 的 
系列 分 成 n 段 , 即 每 个 实体 各 自 组 成 一 段 ,总 离 差 平方 和 最 小 ,就 等 于 0。 因 此 有 

Si > SR >з > 80) = 0 (17-8а) 
500 89 59 
50) ^1> 50” 7? 50 

对 于 大 多 数 实际 的 例子 , 当 分 割 的 段 数 很 少时 总 离 差 平方 和 下 降 很 快 ,而 当 分 割 的 
段 数 很 多 时 总 离 差 平 方 和 将 基本 上 趋 于 0 而 变化 很 慢 的 了 。 可 以 根据 总 离 差 平方 和 下 
降 的 速度 来 决定 应 该 分 划 为 几 段 。 下 面 通过 实例 来 显示 怎样 确定 最 佳 的 分 割 段 数 。 


17.2.2 有 序 实 体 最 佳 分 割 的 实例 :河南 二 里 岗 期 前 后 陶 豆 的 分 期 


在 第 十 六 章 讨论 河南 地 区 从 二 里 头 期 到 人 民 公园 期 13 件 陶 豆 的 主 成 分 分 析 时 曾 指出 ， 
这 些 陶 豆 依据 第 一 主 成 分 的 分 布 基 本 上 是 按时 间 早 晚 的 排列 ( 见 表 16-12 和 图 16-8) 。 我 们 
将 表 16-12 的 数据 抄录 于 表 17-6, 表 17-6 中 陶 豆 是 按照 它们 第 一 主 成 分 的 得 分 值 排序 的 。 


表 17-6 河南 地 区 从 二 里 头 期 到 人 民 公园 期 13 件 陶 豆 的 第 一 主 成 分 值 


或 者 =0 (17-8b) 


陶 豆 编号 考古 分 期 第 一 主 成 分 
4 二 里 头 二 期 – 1.60345 
3 二 里 头 四 期 -1.39335 


2 二 里 头 二 期 偏 晚 - 1.26747 
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Ak 
陶 豆 编号 考古 分 期 第 一 主 成 分 
1 二 里 头 二 期 偏 晚 - 0.80412 
Ь 早 于 二 里 岗 期 上 层 - 0.1932 
5 晚 于 二 里 头 四 期 0.00419 
9 二 里 岗 期 下 层 0.248 
d 同 上 0.5017 
6 同 上 0.54822 
с 同 上 0.5878 
а 二 里 岗 期 上 层 0.61541 
8 二 里 岗 期 上 层 1.20411 
7 人 民 公园 期 1.55216 


下 面 对 这 13 件 陶 豆 根据 其 第 一 主 成 分 大 小 序列 作 最 佳 分 割 。 

1. 第 一 步 分 为 2 段 。 按 公式 (17-6) 计 算 和 比较 不 同 分 割 点 时 的 50 值 ,确定 分 2 段 
时 的 最 佳 分 割 点 应 在 陶 豆 “1” 和 “5b” 间 , 即 二 里 头 4 件 陶 豆 为 一 段 , 其 他 各 期 的 陶 豆 为 另 
一 段 。 两 段 的 中 心 坐标 分 别 是 - 1.267 和 0.563, 最 佳 2 段 分 割 的 总 离 差 平方 和 为 S2 = 
2.723 6。 顺便 指出 如 果 不 分 段 ,13 件 陶 豆 第 一 主 成 分 得 分 的 总 离 差 平方 和 为 50) = 12.00, 

2. 第 二 步 分 为 3 段 。 经 过 计算 确定 分 为 3 段 时 的 2 个 最 佳 分 割 点 为 :第 一 分 割 点 仍 
在 陶 豆 “1" 和 “b" 间 ,第 二 分 割 点 在 陶 豆 “a” 与 “8” 间 。 即 二 里 头 4 件 陶 豆 仍 处 在 第 一 段 ，6 
件 相当 于 二 里 岗 下 层 的 陶 豆 和 一 件 二 里 岗 上 层 的 陶 豆 在 第 二 段 ,一 件 二 里 岗 上 层 和 一 个 
人 民 公 园 期 的 陶 豆 为 第 三 段 。 三 段 的 中 心 坐 标 分 别 是 -1.267 和 0.330 和 1.378。 分 3 段 
时 的 最 小 总 离 差 平方 和 为 SS) = 1.015, 

如 果 希 望 分 段 更 细 , 例 如 分 为 4 段 ,那么 将 把 二 里 头 期 的 陶 豆 “1” 独立 分 为 一 期 ,其 他 
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总 离 差 平方 和 (相对 值 ) 
о 
~ 


10 20 30 40 50 
分 割 的 段 组 数目 
图 171 有 序 实 体 最 佳 分 割 中 总 离 差 平 方 和 
(相对 值 ) 随 分 割 段 数 的 变化 图 , 以 
河南 地 区 二 里 岗 期 前 后 13 件 陶 豆 的 
分 期 为 例 
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分 段 情况 不 变 。 分 4 段 时 的 总 离 差 平 方 和 为 SH = 0.731。 为 了 显示 总 离 差 平 方 和 随 分 段 
数 增加 而 变 小 的 速度 可 以 画 一 张 相应 的 折线 图 ( 见 图 17-1) ,以 帮助 判断 对 陶 豆 序列 分 为 
几 段 较为 合适 。 

由 图 可 见 ,从 不 分 段 到 分 为 2 段 时 ,总 离 差 平方 和 的 降低 极为 明显 ,而 将 分 割 段 数 从 
3 段 增加 到 4 段 时 ,总 离 差 平方 和 的 降低 已 不 是 很 显著 的 了 。 因 此 这 13 件 陶 豆 分 成 2 期 
或 3 期 应 该 是 合适 的 。 上 面 的 例子 表明 ,对 按时 间 有 序 排列 的 考古 实体 进行 最 佳 分 割 是 
可 以 实现 对 实体 的 分 期 的 。 


1.3 史家 草地 的 数量 方法 分 期 及 其 相关 问题 


80 年 代 中 期 朱 乃 诚 (1984) 和 陈 铁 梅 (1985) 先 后 用 定量 方法 对 渭南 史家 墓地 的 墓 茸 进 
行 了 分 期 研究 ,这 是 在 我 国 最 早 应 用 数量 方法 对 考古 单位 进行 分 期 的 尝试 。1978 年 西安 
半 坡 博物 馆 发 表 了 史家 墓地 的 发 掘 材料 。 张 忠 培 于 1981 年 利用 传统 的 考古 地 层 学 和 类 
型 学 的 方法 提出 了 渭南 史家 墓地 的 第 一 个 分 期 方案 。 由 于 朱 和 陈 使 用 了 新 的 、 定 量 的 方 
法 于 莫大 的 分 期 ,而 且 他 们 的 分 期 方案 有 有 异 于 张 的 方案 ,由 此 引起 了 考古 界 一 场 颇 有 意 
义 的 学 术 争论 。 参 加 争论 的 论文 有 伊 竺 (1985) , 陈 雍 (1985) 和 稍 晚 的 刘 茂 (1989) 等 ,这 样 
对 史家 幕 地 共 提 出 了 6 个 分 期 方案 ,这 些 方案 基于 同一 批 资料 , 即 半 坡 博物 馆 1978 年 发 
表 的 材料 ,但 各 分 期 方案 间 是 有 一 定 程 度 的 差别 的 。 本 节 将 对 下 面 几 方 面 的 问题 作 讨 
论 :(1) 介 绍 朱 和 陈 进 行 墓葬 分 期 所 使 用 定量 方法 的 基本 思想 ,取得 的 结果 和 优 缺点 ;(2) 
提出 几 种 判断 分 期 方案 异同 的 定量 标准 ,并 在 此 基础 上 定量 比较 这 6 个 分 期 方案 间 的 异 
同 程度 ;(3) 应 用 地 层 关系 和 器 物 的 演化 序列 检验 分 期 方案 ,对 检验 中 的 某 些 问题 进行 探 
讨 。 

渭南 史家 墓地 属 仰韶 墓地 。 发 气 有 墓葬 43 座 ,其 中 在 37 座 中 出 土 28 种 式 别 的 器 物 
共 128 件 。 器 物 有 钵 E .葫芦 瓶 . 细 颈 壶 、 硫 、 重 、 丛 等 7 种 器 形 , 其 中 后 3 种 器 物 仅 在 3 
座 墓葬 中 出 现 了 8 件 。 表 17-8 列 出 了 钵 、 饶 、 瓶 和 壶 等 4 种 常见 器 物 14 种 式 别 共 111 件 
在 37 座 幕 葬 中 的 出 现 分 布 情况 。 在 这 些 幕 葬 间 存在 7 组 至 压 、 打 破 关系 ,涉及 32 й 
Е. ERA 6 个 分 期 方案 都 是 根据 幕 莫 的 释 压 关系 和 这 些 器 物 在 墓葬 中 的 分 布 作为 基 
础 资料 来 进行 的 。 

#177 ФЭН 37 ВЕЗЕ 14 种 常见 器 物 式 别 的 分 布 表 
(ЖЕНА ЗЕН?) 
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续 表 
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17.3.1 概率 法 分 期 的 基本 思想 和 过 程 


朱 乃 诚 根 据 西安 半 坡 博物 馆 (1978) 发 表 的 基础 资料 ,用 他 称 之 为 概率 法 的 方法 ,提出 
了 一 个 史家 墓地 的 分 期 方案 ,这 是 在 我 国 第 一 次 应 用 定量 方法 于 墓 莫 的 分 期 。 该 方法 的 
基本 思想 是 朱 自 己 发 展 的 ,其 决定 墓葬 期 别 的 步骤 如 下 。 

1. 第 一 步 是 根据 曹 葬 伙 压 关系 和 器 物 的 共存 关系 定 出 早晚 两 期 的 典型 墓 莱 和 典型 
器 物 。 在 7 组 有 到 压 关系 的 草药 组 中 ,排除 了 虽 有 辩 压 关系 但 又 出 有 相同 式 别 器 物 的 墓 
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更 后 ,初步 选 出 M15, M10, M37 和 M39 37 я. 3, М5 和 M14 ӨНЕ, ВУАН 
М15 和 М5 中 出 有 3 种 相同 式 别 的 器 物 , 它 们 不 能 被 认为 是 典型 墓 苦 。 在 M10, М37 和 
M39 中 共同 出 现 的 器 物 式 别 很 多 ,又 以 M10 出 的 器 物 式 别 最 多 ,这 样 定 M10 为 典型 的 早 
期 慕 芋 ,其 中 所 出 的 钵 ТУ,  П,УП ЖЖ 工 被 定 为 4 种 典型 早期 器 物 。 了 晚期 墓葬 的 代表 
是 M14, 其 中 所 出 的 钵 Т, VI 和 瓶 I 则 定 为 晚期 典型 器 物 。 确 定 早 、 晚 期 典型 器 物 是 概 
率 法 进行 墓葬 分 期 的 关键 步 又 。 

2. 第 二 步 是 器 物 的 分 期 。 依 据 每 种 式 别 的 器 物 (以 下 简称 每 种 器 物 ) 在 墓葬 中 与 典 
型 器 物 之 间 的 共存 关系 的 频繁 程度 , 定 出 每 种 器 物 与 早 、 晚 期 典型 器 物 共 存 的 概率 , 称 为 
早期 或 晚期 组 合 概率 。 朱 文 认为 早期 的 器 物 会 与 钵 IV 等 4 种 典型 早期 器 物 共 存 的 机 会 
多 ,而 与 钵 [等 3 种 典型 晚期 器 物 共 在 的 机 会 少 ,相应 其 早期 组 合 概率 高 而 晚期 组 合 概率 
低 。 对 于 晚期 器 物 , 则 情况 会 反 过 来 ,他 们 的 晚期 组 合 概率 将 高 于 早期 组 合 概率 。 因 此 
朱 使 用 每 种 器 物 的 早期 组 合 概率 和 晚期 组 合 概率 闻 的 比值 来 确定 该 种 器 物 的 期 别 。 下 
TAR I 为 例 , 说 明 计算 组 合 概率 和 进行 分 期 的 过 程 。 由 表 17-8 ВЯ ТУ, ПО Яй П, 
VL 等 4 种 早期 典型 器 物 在 37 БЕ ФЕН Т 34 次 (如 某 种 式 别 的 器 物 在 同一 墓葬 中 
出 现 2 件 , 仍 作为 出 现 一 次 计 入 ), 而 铅 I 与 这 4 种 早期 器 物 共 在 6 ТЕЗ, НІНЕ 


1 与 早期 典型 器 物 的 组 合 概率 为 P, = É = 0.177 。 同 样 方法 可 以 计算 负 与 晚期 典型 器 
1 


物 的 组 合 概率 为 P= 22 = 0.343, RPR REIS 3 种 典型 晚期 器 物 共存 的 次 数 ， 


而 “35” 为 3 种 典型 晚期 器 物 总 共 出 现 的 次 数 。 每 种 器 物 根据 它 的 早 、 晚 期 组 合 概 率 的 比 


值 被 定 为 早期 器 物 ,中 期 器 物 和 了 晚期 器 物 。 对 于 锥 1 其 做 = 0377 ~ 0.5, не 


率 约 为 早期 组 合 概率 的 2 倍 , 它 应 定 为 晚期 器 物 。 有 的 器 物 ,例如 对 于 钵 П, ЕН) 2 个 组 
合 概率 的 比值 为 1.4, 差 别 不 大 ,应 定 为 中 期 器 物 。 在 朱 的 分 期 工作 中 ,对 于 上 述 的 7 种 
典型 器 物 也 同样 要 计算 它们 的 组 合 概率 ,重新 分 期 。 例 如 对 于 钵 人 ,可 计算 得 到 Р, = 
0.294, Р, = 0.057, 其 早期 组 合 概率 约 为 晚期 组 合 概率 的 5 倍 , 当 然 应 定 为 早期 器 物 ,从 
而 验证 将 钵 ТУ 定 为 典型 早期 器 物 是 合适 的 。 这 样 每 种 器 物 的 组 合 概 比值 决定 了 该 器 物 
应 定 为 旱 中 晚 3 期 中 的 娜 一 期 。 朱 分 别称 它们 为 第 1,2 或 3 组 器 物 。 

з. 第 三 步 是 根据 每 座 幕 莫 中 出 现 的 器 物 的 分 期 情况 对 莫大 分 期 。 朱 作 规定 如 下 :如 


果 
医药 中 只 有 第 1 ФИ, 幕 茸 定 为 1 期 
AA RNAAR 1,2 组 器 物 ， ЗЕРЕ П ЯЯ 
墓葬 中 同时 有 第 1,2,3 组 器 物 ， ЕЕ Ш Я 
墓葬 中 仅 有 第 2 组 器 物 ， EREN ТҮ 期 
莫非 中 同时 有 第 2,3 组 器 物 ， ЕЖЕЛ УЙ 
ЖЗ {ИД Ж 3 ЫЙ, ЗЕЛЕ Эу ҮІ Я 


这 样 完成 了 对 37 座 墓葬 的 分 期 。 这 个 分 期 方案 可 以 在 表 17-7 中 看 到 。 应 该 认为 ， 
朱 乃 诚 的 分 期 方案 基本 上 是 成 功 的 。 因 为 这 个 方案 能 通过 地 层 关 系 和 器 物 发 展 序 列 的 
检验 。 在 已 知 的 26 对 幕 匡 玲 压 打破 关系 中 ,在 朱 的 分 期 方案 中 仅 有 M3 - М34 和 М5- 
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M30 两 对 墓葬 分 期 关系 与 实际 亚 压 关系 矛盾 ,地层 关系 的 符合 率 还 是 比较 高 的 。 各 种 器 
物 按 墓葬 分 期 的 排序 基本 上 体现 先后 有 序 的 规律 , 先 出 现 的 器 物 ,一 般 也 较 早 的 消失 ;出 
现 较 晚 的 器 物 ,能 延续 到 最 后 。 在 表 17-7 中 能 观察 到 各 式 别 器 物 演化 的 规律 。 

本 书 作者 (1985) 在 充分 肯定 朱文 分 期 研究 的 同时 ,指出 朱文 不 应 该 将 瓶 IV、 孟 、 碗 和 
ЖЕЕ ХИ ДЕ ЛУЫ ЕЗЕН ЭЙ 1 次 的 孤 种 器 物 纳入 考虑 之 中 ,也 不 应 该 对 像 M22 和 M30 等 仅 出 
现 一 件 器 物 的 墓葬 进行 分 期 。 这 类 孤 种 器 物 和 仅 含 单 器 物 的 幕 葬 随机 性 很 大 ,不仅 对 它 
们 的 分 期 不 可 靠 ,而 且 还 有 可 能 干扰 其 他 墓葬 的 正确 分 期 。 例 如 第 4 期 仅 含 有 一 座 幕 昔 
(М35), ЕЕ ЛІ УШ. БЯ, ЖФ VREA? K. ПП ЖИЙ ЗЫ ЩТ ДЕ ШЖ 
将 M35 排除 而 不 予 考虑 ,那么 分 期 方案 中 的 第 IV 期 被 撤消 ,从 而 器 物 按 墓葬 分 期 的 演化 
规律 更 为 清晰 。 

对 于 “概率 法 ?最 严重 的 批评 来 自 间 渭 清 (1991) , 间 正 确 地 指出 概率 分 期 方法 没有 充 
分 地 考虑 考古 地 层 学 的 一 个 基本 原则 , 即 在 晚期 的 考古 单位 中 可 以 出 现 早期 遗物 ,考古 
单位 的 时 代 应 该 由 其 中 最 晚 的 遗物 来 确定 。 所 幸 的 是 , 朱 在 确定 早晚 期 典型 医药 和 典 
型 器 物 时 是 默认 了 这 个 原则 的 ,他 将 有 相互 琶 压 关系 ,而 同时 又 有 共存 器 物 的 墓葬 排除 
在 典型 医 茸 之 外 。 正 如 前 面 所 言 ,由 地 层 关系 所 定 的 早期 墓葬 M15 УМ 36 Ms 间 有 
相同 的 器 物 , 因 而 它们 未 被 选择 为 早晚 期 典型 墓葬 。 因 此 朱 的 这 个 “忽略 "并 没有 影响 
他 分 期 工作 的 前 面 二 步 , 即 没有 影响 对 早 、 晚 期 典型 器 物 的 正确 选择 和 器物 的 分 期 。 问 
题 出 在 分 期 工作 的 第 三 步 , 即 (3) 中 提出 的 按 幕 中 出 现 1,2 和 3 组 器 物 组 合 的 情况 来 定 摹 
匡 期 别 的 规则 是 有 悖 于 “由 考古 单位 中 最 晚 的 遗物 来 确定 单位 的 时 代 ” 这 个 基本 原则 的 。 
但 应 该 说 , 因 没 有 充分 考虑 这 个 基本 原则 所 导致 分 期 方案 的 错误 应 该 是 局 部 的 ,也 许 需 
要 对 某 些 被 定 为 早 中 期 的 墓葬 重新 考虑 它们 的 分 期 。 


17.3.2 聚 类 方法 分 期 的 思想 和 过 程 


本 书 作 者 ( 陈 铁 梅 ,1985) 曾 尝试 使 用 珍 类 方法 于 史家 墓地 的 医 芋 分 期 ,其 分 期 过 程 分 
为 7 步 。 

1. 第 一 步 对 原始 资料 进行 了 筛选 。 将 仅 出 现 2 次 或 单 次 的 偶 见 器 物 和 仅 含 有 1 种 器 
物 的 “ 贫 六 "墓葬 排除 。 因 此 仅 对 32 座 墓葬 进行 分 期 ,这些 幕 匡 中 包含 有 4 种 器 类 的 13 
PAJ, ЕЛЕ. ПШ. МЕХ, I IMN V MRI ПК а, 

2. МЕЗ ИА ЕЕ АЧК, ЕА ЕЛ E C ПЕ ИТИЙ Е 0,13 种 
器 物 在 该 墓 中 出 现 哪 几 种 。 这 样 每 个 实体 (医药 ) 的 属性 由 13 个 按 一 定 次 序 排列 的 二 元 
变量 的 取 值 所 决定 。 若 某 种 器 物 出 现 , 则 相应 变量 取 值 为 1, 若 未 见 某 种 器 物 , 则 相应 变 
量 取 值 为 0。13 种 器 物 是 排 好 固定 的 顺序 的 (器 物 排列 的 顺序 见 表 17-8 的 第 一 行 ,但 不 
BER VII) ,每 个 墓葬 的 属性 就 可 以 用 一 组 13 个 二 元 变量 来 表示 了 。 例 M2 为 (0,0,0， 
0,0,0,0,0,0,1,0,1,00, НУН УП ЖІЗЕ П; П M10 为 ( 0,0,0,1,0,1,0,0,0,1,0,1， 
0), НЕН ЖАТУ, ЕП, ҮП 和 瓶 I。32 座 莫 最终 被 一 个 32 {7.13 列 的 原始 数据 的 
抵 阵 所 描述 。 每 行 代表 一 个 墓葬 ,反映 它 出 有 哪 几 种 器 物 ;而 每 列 代表 一 种 器 物 , 反 映 它 
ТЕЙ Л, ЖЕ ЖЕ ЖЕ h ЕҢ ЭЙ 

3. 莫 匡 间 器 物 组 成 相似 程度 的 定量 描述 。 聚 类 分 析 首 先 需 要 定义 和 计算 实体 之 间 
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的 相似 系数 或 相 异 系数 。 陈 的 分 期 工作 应 用 Jaccard 系数 描述 墓葬 间 异 同 的 程度 。 在 第 
十 四 章 14.3.2 节 中 曾 给 出 Jaccard 系数 的 定义 和 计算 方法 。Jaccard 系数 的 定义 为 8 = av 
(а +b), а 为 二 个 墓 中 都 出 现 的 器 物 的 种 类 数 , 称 为 (1,1) 匹 配 。b 是 仅 在 二 幕 中 的 一 
座 幕 中 出 现 的 器 物种 类 数 , 称 为 (1,0) 或 者 (0,1) 匹 配 。 在 计算 Jaccard 系数 时 ,在 二 个 墓 
中 都 不 出 现 的 器 物种 类 是 不 起 作用 的 。 比 如 说 在 上 述 的 M2 和 MI10 之 间 ,共同 出 现 的 器 
物种 类 数 是 2(Ж УП ЖЖ П) , 仅 在 一 个 幕 出 现 的 器 物种 类 数 也 是 2( 钵 IV ЖИЕ П), ЯКА 
这 二 个 墓 之 间 的 Jaccard 系数 应 该 是 2/(2+ 2) =0.5。 显 然 这 样 定义 的 Jaccard 系数 总 是 
在 0 与 1 间 变 动 。 二 个 曹 的 器 物 组 成 越 接近 ,它们 间 的 Jaccard 系数 就 越 接近 1, 反之 ,如 
果 二 个 墓 的 器 物 组 成 差异 越 大 ,它们 间 的 Jaccard 系数 就 越 接 近 0。 所 以 Jaccard 系数 是 表 
征 莫 莫 间 器 物 组 成 相似 程度 的 一 种 度量 。32 座 墓葬 每 两 两 间 都 计算 Jaccard 系数 ,得 出 
一 个 32 行 32 列 的 Jaccard 系数 的 矩阵 。 这 是 一 个 对 称 的 方 阵 。 

4. 根据 Jaccard ЖЖ ЕХЕ ЗЕНИТКЕ 建立 了 Jaccard 系数 矩阵 后 ,用 1 减 去 所 
有 的 Jaccard 系数 ,可 得 到 幕 匡 间 的 相 异 系数 矩阵 ,并 根据 相 异 系数 矩阵 采用 均值 聚 类 法 
对 墓 划 进行 聚 类 。14.4 节 曾 对 该 方法 的 原理 作 了 详细 讨论 , 聚 类 程序 大 致 如 下 。 在 墓葬 
АУЛА АЕ РЕ ,选取 最 小 的 一 个 系数 值 , 这 个 系数 所 处 的 行 和 列 对 应 的 2 个 墓葬 ， 
它们 应 是 相 异 程度 最 小 的 一 对 墓葬 ,其 器 物 组 成 应 该 最 接近 。 将 它们 娶 为 一 组 。 然 后 以 
其 他 各 墓 与 这 二 个 墓 的 相 蜡 系数 的 平均 值 作为 它们 与 新 的 合并 组 之 间 的 相 异 系数 ,从 而 
得 到 一 个 新 的 相 异 系数 矩阵 。 这 个 新 的 矩阵 是 31 行 31 列 , 即 行 数 和 列 数 均 比 原始 的 相 
异 系数 矩阵 少 1。 这 样 一 步 步 地 把 32 座 墓 药 按 随 莫 器 物 组 成 间 的 相近 程度 逐 组 归并 成 
类 ,最 后 得 到 一 个 表示 各 幕 葬 器物 组 成 间 相 互 接近 程度 的 “ 聚 类 树枝 状 图 "。 

5. 墓 莫 的 分 组 与 分 期 。 根 据 不 同 的 聚合 水 平 , 即 每 一 步 聚 类 时 的 相 异 系数 值 ,可 以 
在 树枝 状 图 上 将 实体 分 成 2 组 .3 组 或 更 多 的 组 。 每 组 组 内 各 实体 间 的 性 状 应 比较 接近 ， 
而 不 同 组 的 实体 间 的 性 状 应 该 相差 较 大 。 陈 的 分 期 方案 中 把 32 座 划分 成 了 4 组 。 需 要 
指出 ,上 面 已 完成 的 仅 是 对 幕 葬 的 分 类 ,还 没有 达到 分 期 的 目的 。 因 此 需要 根据 墓 茸 间 
的 已 知 的 香 压 关系 将 4 组 墓葬 放 在 时 间 标 尺 上 ,即将 4 组 墓葬 按 年 代 的 早晚 排列 。 从 而 
实现 了 墓葬 的 初步 分 期 。 

6. 用 层 位 关系 检验 初步 分 期 方案 和 对 个 别 幕 芋 期 别 的 调整 。 陈 的 分 期 方案 包括 32 
EEF, КНН 25 座 幕 匡 相互 间 存 在 登 压 或 打破 关系 。 每 个 分 期 方案 都 必须 与 每 一 组 
墓葬 间 的 全 压 打破 关系 相符 ,不 能 违背 。 对 上 面 的 初步 分 期 方案 作 检 验 ,结果 是 其 中 有 
17 起 是 晚期 打破 或 一 压 早 期 的 ,有 4 起 是 同期 董 茸 间 存 在 打破 关系 的 ,但 也 有 4 起 是 晚 
期 幕 芋 被 早期 墓葬 打破 的 。 总 体 上 说 , 陈 的 初步 分 期 方案 与 地 层 关系 相 吻 合 的 比例 还 是 
比较 高 的 。 但 是 晚期 幕 大 被 早期 墓葬 打破 的 情况 是 不 能 容忍 的 ,需要 对 这 лане 
压 关 系 矛 盾 的 墓葬 的 期 别 作 调整 ,以 得 到 最 后 的 分 期 方案 。 

7. 器 物 演化 序列 的 检验 。 考 察 四 期 墓葬 中 所 表现 出 的 器 物 演化 模式 ,也 是 检验 分 期 
方案 是 否 合理 的 一 种 标准 。 对 所 选 的 13 种 器 物 中 ,有 8 种 器 物 都 表现 出 “产生 发 展 和 消 
失 ” 的 演化 规律 ,但 有 4 种 器 物 ( 钵 工 钵 II ТЯ VI) 在 四 期 中 都 有 出 现 , 还 有 一 种 器 物 
是 例外 ( 负 II) ,在 二 期 和 四 期 墓葬 中 出 现 , 三 期 却 未 见 , 饶 II 一 共 只 在 三 个 墓葬 中 出 现 ， 
属于 不 常见 的 器 物 ,也 许可 以 作为 例外 或 偶然 现象 来 处 理 。 因 此 总 体 来 说 , 陈 文 “ 对 史家 
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草地 的 分 期 经 受 了 层 位 和 器 物 的 检验 ”( 腾 铭 予 (2001) ,计算 机 考古 讲义 ,吉林 大 学 内 部 应 
用 讲义 )。 关 于 用 器 物 演化 序列 来 检验 史家 墓地 医药 分 期 的 问题 在 下 一 节 将 作 进一步 讨 
论 。 

8. 刘 茂 (1989) 对 陈 文 的 批评 有 下 列 两 点 。(1) 刘 茂 重 复 了 陈 文 所 执行 的 聚 类 过 程 ， 
注意 到 在 聚 类 的 过 程 中 曾 出 现 了 2 个 相等 的 最 大 Jaccard 系数 ,选择 哪个 系数 进行 下 一 步 
ЖЫ ТТА КРЕ, ,也 就 是 说 , 聚 类 的 结果 可 能 不 是 唯一 的 。 刘 的 意见 是 值得 
注意 的 ,但 对 于 史家 墓地 的 这 个 实例 ,不 同 的 选择 虽 会 影响 某 些 蔓草 的 聚 类 次 序 ,但 作为 
聚 类 分 析 最 终结 果 的 树枝 状 图 差别 并 不 大 ,因为 聚 类 树枝 状 图 反映 的 是 莫 莫 间 器 物 组 合 
的 总 体 异 同情 况 。(2) 刘 茂 还 批评 陈 和 朱 的 定量 方法 中 混淆 了 器 种 和 式 别 的 概念 ,把 同 
种 器 物 的 不 同 式 别 作为 不 同 种 的 实体 对 待 。 这 点 意见 也 是 正确 的 。 但 是 将 器 种 和 器 物 
的 式 别 作为 两 个 层次 的 实体 进行 处 理 ,对 于 目前 的 定量 分 析 方 法 是 有 困难 的 ,各 种 定量 
方法 都 将 不 同 器 种 的 各 个 式 别 作 为 同一 层次 的 “类 ”来 处 理 。 目 前 所 能 做 的 是 ,对 分 期 方 
案 中 “类 "的 演化 模式 与 器 物 式 别 演化 的 逻辑 序列 和 地 层 序 列 进行 比较 ,作为 检验 定量 方 
法 分 期 方案 的 标准 之 一 。 


17.3.3 比较 史家 墓地 六 个 分 期 方案 间 异 同 程度 的 数值 度量 


前 面 提 到 ,对 史家 墓地 至 今 已 提出 有 6 种 分 期 方案 。 最 早 是 张 忠 培 用 传统 考古 方法 
的 分 期 , 朱 和 陈 各 自用 定量 方法 提出 2 个 分 期 方案 ,此 外 伊 符 (1985) 和 陈 雍 (1986) 用 传统 
的 方法 , 刘 茂 用 传统 方法 并 参考 了 概率 法 的 模式 也 各 自 提出 了 自己 的 分 期 方案 。 这 6 种 
分 期 方案 的 材料 依据 是 完全 一 样 的 ,都 是 西安 半 坡 博物 馆 1978 年 发 表 的 简报 的 材料 , 即 
37 座 莫 中 出 土 的 26 种 器 物 共 123 件 和 7 组 墓葬 间 的 妥 压 、 打 破 关系 。 但 这 6 种 分 期 方案 
却 并 不 是 完全 一 致 ,有 的 方案 之 间 还 差别 较 大 ,个 别 幕 匡 在 不 同 的 方案 中 可 以 分 别 分 到 
早期 或 晚期 。 在 6 位 分 期 方案 的 提出 者 之 间 曾 相互 争论 和 批评 ,但 并 不 能 客观 地 判断 出 
AERE ,哪个 方案 更 符合 实际 。 每 一 个 分 期 方案 本 身 基本 上 是 内 洽 的 ,也 不 悖 于 已 知 
的 7 组 幕 莫 间 的 蕉 压 、 打 破 关系 。 因 为 有 11 座 独 立 的 墓 莫 ,它们 与 ТӘНЕ, M 
且 这 7 组 礁 压 系统 相互 之 间 的 地 层 关 系 也 不 明确 ,因此 虽然 每 个 分 期 方案 必须 符合 已 知 
的 7 组 释 压 关系 ,但 反 过 来 符合 7 组 芍 压 关系 并 不 能 保证 分 期 方案 的 正确 , 即 与 地 层 关系 
相符 是 分 期 方案 合理 的 必要 条 件 , 但 不 能 作为 充分 条 件 。 为 了 判断 哪个 分 期 方案 更 合 
理 , 需 要 分 析 比 较 各 分 期 方案 给 出 的 器 物 演化 序列 ,考察 哪个 分 期 方案 给 出 的 器 物 演化 
序列 更 符合 实际 。 但 在 分 析 比 较 器 物 的 演化 序列 前 , 先 探讨 怎样 判断 两 个 分 期 方案 之 间 
相似 或 相 异 的 程度 ,需要 寻求 一 个 客观 的 定量 标准 来 度量 。 

本 书 的 作者 认为 朱 和 陈 的 分 期 方案 接近 ,而 与 张 的 分 期 方案 有 差别 ,但 陈 雍 ( 以 下 简 
称 歼 ) 却 认为 朱 和 陈 虽 都 用 的 是 数学 方法 ,但 “由 于 两 文采 用 的 具体 方法 不 同 ,分 期 的 结 
果 也 有 和 较 大 出 人 ”。" 接 近 ” 和 “ 较 大 出 入 ”都 是 模糊 的 度量 ,看 来 比较 两 个 分 期 方案 之 间 
的 相似 或 相 蜡 程度 需要 一 个 客观 的 ,定量 的 标准 。 可 以 定义 好 几 种 衡量 两 个 分 期 方案 之 
间 的 相似 或 相 异 程度 的 定量 标准 。 第 十 一 章 的 11.2 节 和 11.3 节 曾 分 别 计算 了 陈 和 张 的 
两 个 分 期 方案 之 间 的 Gamma 等 级 相关 系数 和 Kendall’ s tau-b 等 级 相关 系数 ,用 这 两 个 等 
级 相关 系数 来 定量 表述 这 两 个 分 期 方案 异同 的 程度 。 除 等 级 相关 系数 外 ,还 可 以 利用 公 
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共 信 息 系 数 或 者 结合 系数 (coherence coefficient) 等 来 定量 表述 分 期 方案 的 异同 程度 。 下 面 
我 们 介绍 一 种 也 许 不 是 十 分 严格 ,但 却 简单 明了 、 并 容易 为 考古 工作 者 了 解 和 接受 的 方 
法 ,来 定量 表述 两 个 分 期 方案 的 异同 程度 。 

考虑 两 种 方案 共同 对 ”个 墓葬 进行 了 分 期 ,为 简化 说 明 过 程 ,假设 两 种 方案 都 把 n 
个 幕 芋 分 成 时 中 晚 3 期。 首先 定义 每 个 医药 的 “分 期 变量 "如 下 ,规定 : 它 对 于 早期 墓 节 
取 值 为 0, 对 于 中 期 墓葬 取 值 为 5, 对 于 晚期 墓 草 取 值 为 10。 第 二 步 计 算 每 个 医药 在 两 个 
分 期 方案 比较 中 的 “得 分 ,定义 为 该 墓 蕴 的 两 个 分 期 变量 的 差 值 的 绝对 值 , 即 如 果 某 墓 
区 在 两 种 方案 中 的 分 期 是 一 致 的 ,得 分 为 0, 如 果 差 一 期 得 分 为 5, 差 二 期 ( 即 一 个 方案 定 
为 早期 , 男 一 方案 定 为 晚期 ) 得 分 为 10。 这 样 定义 计算 的 每 个 墓葬 的 “得 分 " 值 反映 了 两 | 
个 分 期 方案 对 该 墓葬 所 定 的 分 期 位 置 的 相 离 程度 。 把 全 部 个 幕 莫 的 得 分 加 起 来 求 和 ， 
再 将 得 分 和 除 以 墓葬 数 ,就 得 到 两 个 分 期 方案 中 个 医 葬 的 平均 得 分 。 显 然 ,如 果 两 种 
方案 对 每 个 医药 的 分 期 都 是 一 致 的 ,那么 平均 得 分 应 该 为 0, 反 之 如 果 每 个 墓 蕴 在 两 种 方 
案 中 的 分 期 都 是 完全 矛盾 的 (这 是 一 种 极端 的 情况 ,只 是 理论 上 的 可 能 性 ,每 个 墓葬 在 一 
个 分 期 方案 中 如 定 为 早 ( 晚 ) 期 , 则 在 另 一 个 方案 中 定 为 晚 ( 早 ) 期 ,没有 被 定 为 中 期 的 墓 
项 ) ,那么 平均 得 分 为 10。 摹 莫 的 平均 得 分 总 是 在 10 一 0 之 间 波 动 ,其 大 小 应 该 可 以 作为 
两 个 分 期 方案 之 间 相 蜡 或 相似 程度 的 定量 标准 ,数值 越 小 表示 两 个 方案 越 接近 。 我 们 称 
平均 得 分 为 两 个 分 期 方案 之 间 的 相 异 系数 。 

上 面 是 假设 两 个 分 期 方案 均 将 墓葬 分 成 早 中 晚 三 期 的 情况 。 如 果 两 个 方案 分 期 的 
期 段 数 不 一 致 或 不 是 分 为 3 期 ,依然 可 以 用 同样 的 原则 计算 医药 的 “分 期 变量 ”和 “得 
2” ,计算 得 到 方案 间 的 相 异 系数 。 例 如 某 个 分 期 方案 将 墓葬 分 为 4 期 ,那么 早晚 期 墓 车 
的 “分 期 变量 ” 仍 分 别 定 义 为 0 和 10, 但 对 第 二 和 第 三 期 医 鞠 的 分 期 变量 定义 为 3.33 和 
6.66。 后 面 可 以 按照 同样 的 原则 计算 每 个 墓 匡 对 于 两 个 分 期 方案 的 “得 分 "和 全 部 墓 匡 
的 平均 得 分 , 即 两 个 分 期 方案 之 间 的 相 异 系数 。 

按 上 述 原 则 计算 得 到 ,对 于 朱 陈 两 分 期 方案 的 相 异 系数 5 = 1.94, 对 于 朱 张 两 方案 
5 = 2.66。6 个 分 期 方案 两 两 间 计算 得 到 21 个 相 异 系数 值 ,其 中 包括 每 个 方案 自己 对 自 
己 的 相 异 系数 ,后 者 应 该 是 等 于 0 的 。 将 这 些 相 异 系数 值 列表 显示 如 下 。 


5178 史家 草地 六 个 分 期 方案 间 的 相 异 系数 表 
朱 陈 伊 张 Ж 刘 
0 1.94 2.81 2.66 2.45 2.56 

0 2.50 3.33 3.22 3.44 
0 2.9 3.14 3.6 
0 1.21 1.92 
0 2.53 
0 


= ЖЕ ж 


由 表 17-8 可 见 :(1)6 个 分 期 方案 间 总 体 上 存在 相当 多 的 共性 ,即使 最 大 的 相 异 系数 
值 为 3.68, 也 处 于 0-10 间隔 接近 于 0 的 一 端 ;(2) 在 诸 分 期 方案 中 , 朱 陈 间 , 张 雍 间 和 雍 刘 
间 相 对 比较 接近 ,相应 的 3 个 相 异 系数 均 小 于 2。 但 为 了 清楚 地 显示 6 个 方案 间 异 同 的 
总 体 情况 ,根据 表 17-9 所 列 出 的 相 异 系数 矩阵 作 均 值 聚 类 分 析 。 均 值 聚 类 分 析 的 结果 由 
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聚 类 树枝 状 图 所 示 ( 图 17-2)。 由 图 17-2 可 见 , 张 和 雍 两 
个 分 期 方案 最 相 接近 ,它们 在 相 异 系数 1.21 的 水 平 上 首 
先 聚 为 一 组 。 朱 与 陈 也 较 接 近 , 在 1.94 的 水 平 上 聚 类 。3.0 
第 三 步 是 刘 和 张 诸 混 合 组 聚 类 , 聚 类 水 平 是 2.2。 接 着 
第 四 步 是 仇 和 朱 陈 混合 组 聚 类 , 聚 类 水 平 是 2.65。 最 后 -0 
2 个 混合 组 在 相 异 系数 3.2 的 水 平 上 聚 为 一 大 组 ,包含 
了 全 部 6 个 分 期 方案 。 这 张 聚 类 图 的 聚 类 次 序 和 聚 类 
水 平 形象 而 且 定 量 .客观 地 描述 了 6 个 分 期 方案 相互 间 19 
的 异同 程度 。 聚 类 分 析 的 结论 是 :6 个 分 期 方案 大 致 可 
分 成 两 组 ,一 组 包括 张 , 歼 和 刘 , 另 一 组 包括 朱 , 陈 和 伊 ，Q a 际 4 шы 
下 面 我 们 称 之 为 张 群 和 朱 群 。 在 张 群 中 以 张 和 雍 的 两 
个 方案 最 为 接近 ,在 朱 群 中 以 朱 与 陈 的 两 个 方案 最 为 接 图 17-2 史家 墓地 六 个 分 期 广 
近 。 案 间 的 聚 类 图 

顺便 指出 ,使 用 GAMMA 等 级 相关 系数 等 其 他 的 描述 分 期 方案 间 的 相似 系数 ,可 以 得 
到 与 图 17-2 KBE Ж БОК ЖЕ ЖЕТЕ, ЖЕЛЕК ЕИ ИИ, И ЖЕШ ЖКУ. 
上 稍 有 差异 。 因 此 可 以 说 ,图 17-2 所 示 的 聚 类 图 客观 地 反映 了 6 个 分 期 方案 间 的 异同 关 
系 。 本 小 节 的 讨论 也 使 我 们 看 到 定量 地 评估 两 个 分 期 方案 之 间 的 相似 或 相 异 程度 , 比 通 
常 直观 .模糊 地 判断 有 明显 的 优点 ,而 且 实 现 起 来 也 并 不 难 ,可 以 用 简单 的 数学 方法 来 实 
现 。 


17.3.4 根据 器 物 的 演化 序列 对 史家 昔 地 几 个 分 期 方案 的 检验 


前 面 聚 类 分 析 表 明 ,史家 墓地 的 6 个 分 期 方案 基本 上 可 以 分 成 张 群 和 朱 群 两 组 。 由 
于 墓 茸 间 秋 压 、 打 破 关系 的 医药 组 较 少 ,难以 判断 哪 组 方案 更 接近 实际 。 分 析 器 物 的 演 
化 序列 也 是 检验 分 期 方案 合理 程度 的 一 个 指标 。 本 小 节 将 从 器 物 的 演化 序列 的 角度 来 
比较 分 析 朱 群 和 张 群 的 分 期 ,并 分 别 以 朱 乃 诚 和 陈 歼 的 两 个 方案 作为 朱 群 和 张 群 的 代 
表 。 朱 乃 诚 方案 中 14 种 常见 器 物 式 别 的 演化 序列 已 在 表 17-7 中 列 出 ,这 里 同样 列 出 这 
14 个 式 别 的 器 物 在 陈 比方 案 中 的 演化 序列 ( 见 表 17-9)。 该 表 中 的 医药 是 按 陈 雍 的 分 期 
方案 排列 的 ,但 表 中 同时 标 出 每 座 墓 莫 在 6 个 分 期 方案 中 的 期 别 ,便于 相互 比较 。 

表 17-9 史家 草地 37 BESH 14 种 常见 器 物 式 别 的 分 布 以 及 每 座 墓 葬 在 
6 个 分 期 方案 中 分 期 表 ( 莫 葬 按 陈 雍 的 分 期 方案 排列 ) 


Еж # ж # 
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续 表 


ы 


wip 


ЖЗ К 刘 


ПП # Ж 


1 


У ҮІ УП УШ 


39 


1 
15 
32 


34 


25 


3.5 
3.5 
3.5 


12 
35 


17 


19 
21 


28 


36 


16 


14 
22 
27 


30 
42 


33 


43 


26 


34 37 32 37 29 34 


14 12 3 


3 


11 


Ж Ж Ж И) ЕЖЕ Ж} Ж ЕНУ ЖІ, 532 17-7 和 表 17-9, 对 这 3 种 器 形 以 


KEF 14 种 式 别 在 朱 、 歼 两 方案 中 的 分 期 位 置 汇总 于 下 面 表 17-10, 
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#17-10 朱 力 诚 和 陈 雍 对 14 种 式 别 的 器 物 分 期 情况 的 对 比 表 
器 物种 类 数量 朱 乃 诚 分 期 方案 ( 共 分 6 期 ， 陈 雍 分 期 方案 ( 共 分 4 期 ,但 少数 幕 ауы 


和 式 别 但 第 4 期 仅 M35 — REF) FAET, 期 间或 3,4 期 间 ) 
ЖІ 11 3 一 6 期 全 为 4 期 均 晚 
П 9 2 一 5 期 ,以 5 期 为 多 分 在 2 一 4 期 оты 
Ш 5 2 一 5 期 全 在 2 期 ЖЕҢ + 
IV 4 1 期 和 3 期 1 一 2 期 均 早 
ШІ 8 3 一 6 期 2 一 4 期 均 偏 晚 
Пп 5 1 一 3 期 各 期 均 见 RE 
Ш 6 3 一 6 期 2 一 4 期 均 偏 晚 
ү 5 2 一 6 期 3 一 4 期 朱 中 晚 , 雍 
й 
VI 9 3 一 和 期 除 1 期 M31,2 期 M34 外 ,主要 在 4 期 ” 均 偏 晚 
уп 18 除 6 期 的 ML 外 ,全 在 1 一 3 期 各 期 均 见 жн 
ҮШ 3 5 期 主要 在 3 期 均 中 偏 晚 
ЖІ 14 3 一 6 期 2 一 4 期 均 偏 晚 
п 1 除 6 期 的 Ml 外 ,全 在 1 一 3 期 各 期 均 见 朱 早 
ЖП 3 3 一 6 期 4 期 кт 


考察 表 17-10, ЖЖІЗЕР АЛ Ж КИЕЛИ 3 种 器 形 各 式 的 分 期 未 见 严 重 的 分 歧 ， 
各 式 别 的 分 期 在 两 个 方案 中 基本 是 相符 的 ,未 见 任何 一 种 器 物 式 别 在 一 个 方案 中 定 为 时 
(晚期 而 在 另 一 方案 中 被 定 为 晚 ( 早 ) 期 。 但 是 更 细致 的 观察 能 注意 到 :(1) 雍 方案 对 4 
种 式 别 的 钵 ,从 IV-~>IIT-~IT>I 清 楚 地 对 应 由 早 到 晚 的 演化 序列 。 在 朱 的 分 期 方案 中 , 虽 
然 各 式 钵 也 显示 了 同样 的 演化 规律 ,但 每 种 式 别 所 跨越 的 期 段 较 长 。 如 亚 式 钵 在 朱 方 
案 中 跨越 2 -5 期 ,而 在 询 方案 中 均 集中 于 2 期 。(2) 朱 将 I 式 瓶 和 1I 式 瓶 清楚 地 分 为 早 
晚 两 期 ,而 雍 虽 也 将 I 式 瓶 定 为 中 晚期 ,但 开 式 瓶 却 从 早 到 晚 均 有 出 现 。(3) 类 似 ПЕ 
的 情况 还 有 铅 УП ЯП 工 , 朱 把 它们 都 定 为 早期 的 器 物 ,但 在 雍 的 方案 中 这 2 ЛІНШЕ 
与 贡 式 瓶 的 分 布 情况 相似 ,都 是 从 早 到 晚 均 有 出 现 ,被 认为 是 没有 分 期 意义 的 器 物 。 我 
们 注意 到 在 朱 的 分 期 工作 中 是 将 这 3 种 器 物 定 为 典型 早期 器 物 ,它们 在 朱 的 分 期 工作 中 
起 到 “基础 性 ”的 作用 。 在 陈 的 分 期 方案 中 这 3 种 式 别 也 被 定 为 早期 或 偏 早 。 判 断 这 3 种 
ЈО П. ҮП 和 瓶 I) 是否 确实 为 早期 器 物 , 有 助 于 分 析 朱 雍 这 两 个 分 期 方案 哪个 更 
为 合理 。 但 史家 墓地 是 “单一 的 典型 的 文化 内 涵 的 遗址 ”, 其 延续 的 时 间 可 能 不 会 太 长 ， 
每 种 器 物 类 别 其 式 别 变化 的 规律 不 是 十 分 明显 ,个 别 器 物 式 别 有 可 能 在 史家 的 早晚 期 都 
沿用 。 目 前 文献 中 也 未 见 有 关于 对 史家 墓地 器 物 演化 的 逻辑 序列 的 分 析 。 因 此 在 史家 
墓地 这 个 孤立 的 “小 系统 "中 ,难以 分 辩 即 种 器 物 演化 模式 ,哪个 分 期 方案 更 符合 实际 ,也 
许 应 把 史家 墓地 放 在 一 个 更 大 的 时 空 环 境 中 加 以 观察 认识 。 史 家 募 地 的 原 简 报 认 为 史 
家 “ 介 于 半 坡 类 型 与 庙 底 海 类 型 之 闻 的 一 种 文化 遗存 ”。 因 此 也 许 应 跳出 史家 墓地 的 “小 
系统 ”, 把 史家 的 钵 、 铅 、 和 瓶 等 器 物 放 在 该 地 区 其 他 半 坡 类 型 和 庙 底 沟 类 型 遗址 出 土 的 
器 物 这 个 “大 系统 "中 来 考察 比较 ,能 更 清楚 地 认识 史家 器 物 的 演化 规律 。 张 忠 培 曾 进行 
了 这 方面 的 比较 ,并 提出 史家 的 ІК, Утуп Ул АИ АЈ”, 
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但 在 朱 和 雍 对 史家 的 分 期 中 都 把 I 式 钵 和 V 式 钠 定 为 晚 或 偏 晚 ,对 于 УП 式 钢 朱 定 为 早 
期 , 收 认 为 各 期 均 出 现 。 因 此 与 元 君 庙 三 期 的 器 物 比较 只 能 作出 史家 “ 当 早 可 至 元 车 庙 
摹 地 三 期 "的 推论 , 而 不 能 帮助 判断 朱 雍 两 个 分 期 哪个 更 符合 实际 。 另 一 种 常见 器 物 是 
H ,在 史家 的 I 式 和 开 式 瓶 间 , 相 比 后 者 与 半 坡 的 戎 芦 瓶 在 形态 上 更 相似 ,因此 朱 将 正式 
瓶 定 为 早期 也 许 是 合适 的 。 总 之 把 史家 幕 地 放 在 一 个 更 大 的 时 空 环境 中 加 以 观察 的 做 
法 应 该 有 助 于 对 目前 分 期 方案 的 改进 。 


17.3.5 关于 墓葬 分 期 中 的 几 个 问题 


1. 怎样 对 待 出 现 次 数 很 少 的 “ 偶 见 ”器 物 和 出 土 器 物 很 少 的 墓葬 。 陈 铁 梅 用 聚 类 方 
法 于 史家 幕 地 分 期 时 将 出 现 次 数 不 超 过 2 的 偶 见 器 物 和 仅 含 有 1 БЫ “АҒ ЗЕ НЕ 
除 在 外 ,在 37 ЖАН А о 种 器 类 28 种 式 别 中 , 仅 考虑 4 种 器 类 的 13 种 式 别 的 分 布 
对 32 座 墓葬 进 行 分 期 。 排 除 “ 偶 见 " 器 物 和 “和 贫 将 " 幕 芋 是 聚 类 分 析 中 为 正确 计算 墓 莫 间 
的 相似 系数 所 要 求 。 但 是 在 所 谓 偶 见 器 物 中 有 可 能 存在 与 墓地 的 前 后 文化 类 型 有 联系 
的 “典型 器 物 ”。 如 果 排 除 典型 器 物 显然 是 不 适当 的 。 因 此 在 建立 初步 的 分 期 方案 的 基 
础 上 ,应 该 重新 审查 被 排除 的 器 物 和 墓葬 ,考察 是 否 应 纳入 作为 分 期 的 参考 标准 。 

当然 反 过 来 排除 “常见 ”器物 ,而 只 考虑 偶 见 器 物 对 分 期 的 作用 也 是 不 妥当 的 。“ 常 
见 ”器 物 出 现 次 数 多 ,有 更 大 的 可 能 在 初步 分 期 的 各 期 墓葬 中 都 可 见 到 ,因此 被 当 作 无 分 
期 意义 的 器 物 而 被 排除 。 例 如 在 张 忠 培 的 分 期 中 仅 考虑 ШУ. У.У УП 等 5 种 式 别 
的 瓶 ,但 这 5 种 瓶 在 史家 共 出 现 6 次 ,而 共 出 现 25 次 的 I 和 工 式 瓶 却 没有 得 到 充分 地 重 
视 。 同 样 7 ЯЗА, Ж ПО ЗЕН Эй 53 次 ,在 张 的 分 期 中 仅 考 虑 了 V 和 УШК, 5 2 ЯНУ 
出 现 了 8 次。 这 也 许 说 明 为 什么 在 张 的 方案 中 ,各 式 钠 和 瓶 的 演化 模式 不 如 钵 的 演化 模 
式 那 么 清楚 。 

2. 器 类 和 式 别 的 关系 。 刘 茂 正 确 地 批评 朱 、 陈 等 数量 分 类 方法 把 各 类 各 式 器 物 统 视 
为 彼此 独立 的 “种 ”来 处 理 ,特别 指出 只 有 器 类 才 可 以 分 为 “常见 "和 “ 偶 见 "”, 某 种 器 类 的 
某 种 式 别 出 现 次 数 少 ,不 能 认为 该 式 别 所 属 器 类 为 “ 偶 见 "器 类 ,而 且 某 “ 偶 见 ? 式 别 之 所 
以 为 偶 见 ,可 能 是 因为 它 处 于 该 器 类 演化 的 某 个 特殊 环节 ,因此 器 物 的 该 * 偶 见 ? 式 别 仍 
有 分 期 意义 。 器 物 的 类 别 和 式 别 的 层次 是 不 同 的 , 式 别 是 同一 器 类 演化 的 不 同 阶段 。 可 
惜 目前 的 数量 方法 只 能 对 同 层 次 的 实体 进行 分 类 和 排序 ,对 实体 的 诸 属性 作为 同 层 次 的 
属性 处 理 。 因 此 数量 方法 的 分 期 结果 , 除 要 经 受 地 层 关系 的 检验 外 ,还 应 检验 每 种 器 物 
不 同 式 别 的 分 期 能 否 符 合 器 物 形 制 演化 的 逻辑 序列 ,经 受 该 类 器 物 在 更 大 的 时 空 环境 中 
演化 情况 的 考察 。 

3. 前 面 已 提 到 , 闫 渭 清 (1991) 批 评 朱 的 分 期 方法 中 对 “晚期 墓葬 中 出 现 早期 器 物 的 
可 能 性 ?这 个 考古 地 层 学 的 原则 未 作 充 分 考虑 (在 确定 早 、 晚 期 标准 器 物 时 朱 是 考虑 了 这 
个 原则 的 )。 实 际 上 朱 在 确定 某 些 墓葬 的 期 别 时 也 注意 了 这 个 原则 ,例如 将 出 ХЛИ ЛП 
ҮП 式 饶 等 早期 器 物 的 M1 仍 安排 在 晚期 ,因为 其 中 出 有 IRRA VI 瓶 等 晚期 器 物 。 应 
该 指出 陈 的 分 期 方案 在 计算 墓葬 间 的 相似 系数 时 ,也 没有 充分 考虑 这 种 可 能 性 。 现 在 看 
来 陈 的 分 期 工作 显得 不 够 细 , 对 聚 类 的 结果 , 仅 根 据 地 层 关 系 调整 了 4 座 草药 的 期 别 就 
作为 分 期 方案 提出 ,没有 从 器 物 演 化 的 角度 作 检验 和 由 此 对 某 些 墓葬 的 期 别 作 进一步 的 


第 十 七 章 ”考古 实体 的 排序 和 分 期 259 


调整 。 在 陈 的 方案 所 分 析 的 13 种 器 物 式 别 中 ,有 4 种 式 别 ( 钵 ПІ ЖІ VI) 在 4 
期 中 均 出 现 , 类 似 于 张 方案 中 瓶 1 ПЕТЕ П ЖИЕ УП 的 分 期 情况 。 这 种 多 种 式 别 在 
各 期 均 出 现 的 现象 , 仰 或 是 符合 实际 情况 (史家 墓地 的 延续 时 间 不 可 能 太 长 ), 还 是 因为 
分 期 方案 不 细致 所 至 。 值 得 深信 考虑 。 

4. 分 析 6 个 分 期 方案 间 , 主要 是 朱 陈 和 张 歼 二 组 间 的 共同 点 和 相 异 点 对 进一步 更 符 
合 实际 地 安排 史家 墓地 墓 竟 和 器 物 式 别 的 期 别 应 该 是 有 意义 的 。 首 先 考 察 共同 点 ,分析 
表明 6 个 方案 均 将 М2, М10,М11, М37 和 M39 等 墓葬 定 为 早期 或 偏 早 ,这 主要 是 因为 各 方 
案 均 同意 将 IV 式 和 王 式 钵 定 为 早期 或 偏 早期 的 器 物 。 朱 陈 将 з УП КШ ИП 
瓶 定 为 早期 或 偏 时 的 器 物 ,而 张 雍 方案 认为 这 З 种 式 别 的 器 物 在 史家 的 各 期 均 可 能 出 
现 , 这 也 不 会 引起 对 墓 莫 分 期 的 明显 矛盾 。6 个 方案 均 将 M14, М22, М27, М29, M42 定 为 
晚期 或 偏 晚 的 曹磊 ,相应 的 多 数 方案 均 认为 I 式 .I 式 钵 ,I 式 II 式 和 YVI 式 饶 以 及 工 式 瓶 
为 晚期 或 偏 晚 的 式 别 , 有 的 方案 认为 其 中 某 些 式 别 从 早 到 晚 均 有 出 现 。 再 考察 相 异 点 ， 
不 同 的 方案 的 相 异 点 主要 反映 在 墓葬 的 分 期 上 ,有 的 摹 莫 在 一 个 方案 中 定 为 早期 ,而 在 
另 一 个 方案 中 却 定 为 晚期 ,例如 М4,М8 和 M38 等 。 在 对 器 物 式 别 的 分 期 方面 ,各 方案 间 
却 未 见 似 幕 葬 分 期 那样 的 完全 相悖 的 情况 ( 见 表 17-11)。 现 分 析 M4 的 情况 ,该 墓 陈 定 为 
早期 , 朱 定 偏 早 而 张 雍 定 为 晚期 ,明显 有 了 矛盾。 该 幕 出 土 有 工 式 和 VIRE IRMAK I 
式 钵 。 朱 陈 认为 前 3 种 式 别 是 早 或 偏 早 的 器 物 ,[ 式 钵 是 偏 晚 的 器 物 , 朱 陈 未 考虑 “应 以 
莫 莫 中 最 晚 的 器 物 来 定 墓 大 的 年 代 " 这 个 原则 , 仅 考虑 M4 中 偏 早 的 器 物 占 大 多 数 ,从 而 
定 M4 的 年 代 也 应 偏 早 。 从 这 个 问题 分 析 , 朱 陈 所 采用 的 定量 分 析 方 法 有 需 改 进 之 处 。 
M38 的 分 期 矛盾 也 缘 于 此 ,地 层 上 M4 5 Е M38 ,但 这 2 座 墓 与 其 他 墓葬 间 没 有 符 压 或 打 
破 关系 。MSg 的 分 期 情况 是 : 张 雍 定 为 早期 或 偏 早 , 朱 陈 定 为 偏 晚 。 该 墓 出 土 II 式 钵 和 1I 
式 瓶 。 朱 陈 和 张 雍 均 认为 前 者 为 偏 早 的 式 别 而 后 者 为 偏 晚 的 式 别 。 从 地 层 关系 看 M8 Ж 
Ж M40 ,后 者 未 出 任何 器 物 。 由 此 分 析 , 张 政 将 M8 定 为 早期 似 有 点 勉强 。 

前 面 的 分 析 讨 论 ,显示 了 数量 方法 应 用 于 考古 单位 的 分 期 的 可 能 性 ,也 揭示 了 数量 
方法 和 传统 方法 应 用 于 史家 墓地 分 期 中 共同 点 和 相 异 点 ,各 自 的 成 功 和 不 足 之 处 。 显 然 
这 两 类 方法 均 不 够 完善 ,但 是 可 以 相互 补充 ,而 不 是 互相 排斥 的 。 作 为 传统 考古 分 期 方 
法 的 补充 ,数量 方法 也 需要 改进 和 发 展 。 数 量 方 法 与 传统 方法 的 互补 性 应 当 可 以 推广 到 
考古 学 研究 的 很 多 方面 。 这 个 观点 是 本 书 的 重要 结论 之 一 。 
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上 篇 ”考古 研究 中 的 基础 统计 学 


第 三 章 


1. 列 式 计算 下 列 一 组 数据 的 平均 值 , 离 差 平方 和 ,样本 标准 差 和 总 体 标准 差 ,中 数 ， 
四 分 位 数 和 四 分 位 差 。 能 否 求 众 数 ,为 什么 ?请 手工 计算 ) 
55,53,57,51,52,62,55,55,56,54ь 


2. 有 一 批 青铜 剑 ,其 长 度 分别 为 120,121,130,125,126,128,126,135,125,86,82,94, 
87,89,85 ,89,126,124,82,86,125,87 厘米 。 请 画 出 直方 图 , 问 求 它们 的 平均 长 度 和 长 度 
标准 差 有 无 意义 ? 为 什么 ? 这 组 数据 应 如 何 处 理 ? 


3. 从 Pine Ridge Cave (РКС) 和 Willow Flats Site (WFS) 两 地 点 采集 到 48 {FA AH 
削 器 ,并 测量 了 它们 的 长 度 (单位 为 毫米 )。 石 质 可 分 为 Chet (С) 和 Flim (F) 两 种 。48 
件 刊 前 器 的 出 土地 点 , 石 质 材料 和 长 度 统 计 如 下 表 。 请 分 别 以 地 点 和 石 质 分 类 , 画 出 两 
张 背 对 背 的 茎 叶 图 (或 相应 的 直方 图 ) ,并 加 以 讨论 。( 引 自 匹 兹 堡 大 学 教材 Drennan1996) 


4. 测量 了 28 件 周 代 青铜 剑 中 锡 的 百 分 含 量 ( 见 下 表 ) ,请 通 出 直方 图 和 茎 叶 图 ,计算 
平均 值 .标准 差 ,标准 误 , 中 值 、 上 下 四 分 位 数 和 四 分 位 差 。 
11.5 12.3 12.4 12.4 13.5 14.3 14.3 14.5 14.6 14.6 14.7 15.0 
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15.7 15.8 15.8 15.9 16.2 17.1 17.5 17.6 17.7 18.4 18.6 18.8 
19.0 19.7 19.8 20.5 


5. 下 表 的 数据 引 自 华 觉 明 (1999) 的 表 7-11 和 表 7-12。 统 计 了 从 西周 晚期 和 东周 青 
铀 剑 的 铜 锡 铅 元 素 组 成 。 表 的 右面 为 中 原 的 数据 ,左面 为 辽西 的 数据 。 请 分 析 比 较 两 地 
剑 中 锡 的 平均 含量 ,对 锡 含 量 稳定 性 的 控制 (首先 请 注意 辽西 剑 锡 含量 的 分 布 )。 也 请 比 
较 两 地 铸 剑 使 用 铝 的 情况 。 如 有 可 能 ,请 尝试 作 考 古 学 的 解释 。 


Ж 


出 土地 点 
洛阳 


洛阳 
洛阳 
洛阳 
洛阳 
洛阳 
洛阳 
洛阳 
洛阳 
洛阳 
洛阳 
洛阳 
洛阳 
洛阳 
洛阳 
洪 洞 
江陵 
沈阳 
罗 定 
罗 定 
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第 四 章 


1. 抽 扑 克 牌 ,每 次 抽 一 张 , 抽 完 后 放 回 , 混 匀 ,再 抽 第 二 张 , 问 : 
(1) 抽 三 张 牌 ,花色 一 样 的 概率 是 多 少 ? 
(2) 抽 三 张 牌 ,不 计 花 色 ,三 张 牌 顺序 相连 的 概率 是 多 少 (认为 A 同时 连接 2 和 Kk) 
(3) 抽 三 张 牌 ,数值 一 样 的 概率 是 多 少 ? 
(4) 抽 二 张 牌 ,其 和 大 于 5 的 概率 是 多 少 ? 


2. 如 果 抽 出 的 牌 ,不 再 放 回 ,上 题 的 计算 结果 如 何 ? 

з. 对 某 居民 小 区 进行 了 调查 ,统计 有 80% 的 居民 订阅 报纸 ,45% 的 居民 订阅 杂志 ， 
30% 的 居民 同时 订阅 报纸 和 杂志 。 请 计算 只 订阅 报纸 的 居民 的 百分比 和 不 订阅 任何 报 
纸 杂 志 的 居民 比例 。 


4. 据 统 计 某 城 市 居民 活 到 60 岁 的 概率 是 80% , 活 到 70 岁 的 概率 是 40% , 问 现年 60 
岁 的 人 活 到 70 岁 的 概率 是 多 少 ? (51А Р RE (1989)) 


5. 某 种 产品 由 甲乙 两 工厂 提供 ,已 知 甲 厂 提 供 95% ,其 次 品 率 为 2% , 乙 厂 提供 5%， 
其 次 品 率 为 20% 。 现 发 现 一 件 次 品 , 问 它 是 甲 厂 生产 的 概率 多 大 。 
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6. 有 一 副 扑 克 牌 ,由 等 数量 的 A=1,2,3,4 组 成 。 
(1) 随 机 抽 一 张 ,得 一 个 值 Хо R X 的 理论 分 布 应 如 何 ? 
(2) 随机 抽 一 张 ,得 一 个 值 Х, , 抽 完 后 放 回 , 混 匀 ,再 抽 第 二 张 , 求 两 次 平均 值 X 
理论 分 布 。 
(3) 按 上 述 规则 ,依次 抽 三 张 , 问 三 张 牌 的 平均 值 Х, 的 理论 分 布 应 如 何 ? 
(4) 怎 样 认 识 上 述 分 布 的 变化 ? 


7. 发 现 有 6 个 墓 ,请 计算 墓 主人 性 别 分 别 为 0,1,2,3,4 个 男性 的 概率 (假设 男女 性 
比 正常 )。 


8. 已 知 北大 男 同学 平均 身高 为 171cm, 标准 差 为 4cm, 假 设 身 高 服从 正 态 分 布 , 问 : 
(1) 身高 大 于 179cm 的 人 的 百分比 ? 
(2) 要 选 20% 中 等 身高 的 人 ,请 定 这 批 人 身高 的 上 下 限 , 即 身高 在 此 区 间 的 人 占 
总 数 的 20% 。 
(3) 随机 找 一 个 同学 ,其 身高 在 1.72—1.75ст 间 的 概率 是 多 少 ? 
(4) 有 一 男生 ,其 身高 属 最 高 的 5% 以 内 , 问 其 身高 应 不 低 于 多 少 ? 
(5) 招考 飞行 员 ,身高 要 求 在 1.68 一 1.78em 之 间 , 问 有 多 少 比例 的 人 不 能 报名 ? 


9. 第 8 题 的 a, b, 请 在 标准 差 为 2cm 的 条 件 下 求解 。 比 较 这 二 种 情况 的 结果 ,并 作 
讨论 。 


10. 计算 第 三 章 第 1 题 中 各 数据 的 Z 分量 值 ,并 验证 2 的 平均 值 和 标准 差 是 否 接近 
0 和 1。 


第 五 章 


1. 测量 了 一 组 上 = 49 把 同类 型 青铜 剑 的 长 度 (已 知 它们 服从 正 态 分 布 ) ,分别 用 X, 
Хз, Хз, Хо 表示 (单位 为 cm) ,已 求 出 这 批 青铜 剑 长 度 的 平均 值 和 标准 差 为 50cm 和 
6cm。 问 (1) 计 算 任意 抽取 一 剑 其 长 度 在 44--5беп 间 的 概率 , (2) 求 该 组 数据 的 标准 误 并 
给 出 该 类 型 剑 平均 长 度 50% 置 信 度 的 区 间 估 计 ,(3) 如 果 我 们 希望 将 对 该 类 型 剑 平均 长 
度 50% 置 信和 度 的 区 间 佑 计 的 宽度 缩短 一 半 , 问 至 少 需要 测量 多 少 把 剑 。 


2. 将 第 三 章 第 4 题 的 数据 看 成 大 样本 (n = 28), 请 给 出 这 类 青铜 便 平 均 含 锡 量 
68.3% 和 95% 置 信和 度 的 区 间 估 计 。 


3. 如 果 将 上 题 作为 小 样本 处 理 , 这 类 青铜 剑 平 均 含 锡 量 68.3% 和 95% 和 置信 和 度 的 区 
间 估 计 是 多 少 ,与 上 题 的 差别 有 多 大 。 
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4. 假设 某 文 化 类 型 的 聚落 面积 服从 正 态 分 布 , 已 测 得 五 个 该 类 聚落 的 面积 分 别 为 
50, 60,65,55 和 70 平方 里 ,请 分 别 给 出 0.1 和 0.05 的 显著 性 水 平 下 该 类 聚落 平均 面积 的 
区 间 估 计 并 作 比 较 。 


5. 以 下 一 些 样本 来 自 平 均值 yx = 29.00 的 总 体 , 求 它们 的 上 值 。 
(а) X = 29.60 з= 2.50 п-29 
(b) X = 29.60 ғ = 0.15 п = 29 
(с) X = 29.60 з= 0.15 n=3 


(4) Х = 25.00 з = 0.15 п = 29 
请 观察 上 值 的 大 小 依赖 于 哪些 因素 (请 在 a,b 间 .b,ec 间 和 b,d 间 比较 )。 


第 六 、 七 章 


1. 根据 第 三 章 第 5 题 中 原 地 区 48 把 周 代 青铜 剑 实 测 的 锡 含量 ,检验 4 六 齐 说 》 关 于 
周 代 青铜 剑 是 按照 锡 含量 25% 铸 造 的 说 法 是 否 正确 。 


2. 对 某 遗 址 地 面 和 半 地 下 房屋 面积 5 统计 如 下 : 
地 面 ”统计 房屋 数 n =50 FHER S =7m， 方差 = Sm ， 
半 地 下 n =80 FHMF S =6.6бш, 22 = 6ш, 
计算 两 类 房屋 面积 平均 值 之 差 的 0.05 显著 性 水 平 的 区 间 估 计 ,并 在 一 定 的 显著 性 水 
平 下 作出 推论 , 问 这 两 类 房屋 的 平均 面积 有 没有 显著 差异 。 


з. 调查 某 城市 男女 平均 寿命 ,结果 如 下 : 


性 别 被 调查 人 数 平均 寿命 标准 差 
男 150 76 11 
Ж 100 80.5 


问 :(1) 该 城市 男女 的 平均 寿命 有 没有 差异 ? 
(2) 如 果 标 准 差分 别 为 18 与 20, 重 复 上 面 的 判断 。 


4. Pittsburgh 大 学 的 К.р. Drennan 完成 了 对 Ollantaytambo 的 考古 发 据 , 找 到 了 36 件 
ЖАТА, 其 外 表 颜 色 和 和 钳 合 量 的 测定 如 下 ; 


黑 灰 ® 灰 灰 
137.6 | 133.3 | 137.3 | 137.1 


ннн а 
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从 外 表 颜 色 分 析 , 不 同 颜 色 的 燃 石 工具 似乎 有 不 同 的 原材料 来 源 , 但 Drennan 希望 
通过 其 化 学 元 素 组 成 来 验证 这 个 判断 , 表 中 列 出 了 燃 石 工具 的 颜色 和 铬 含量 的 测定 结果 
(用 ppm 作 单 位 表示 )。 

(1) 请 对 不 同 颜色 的 糙 石 工具 画 出 背 对 背 的 茎 叶 图 作 初 步 验证 。 

(2) 分 别 计算 两 种 颜色 炎 石 工具 总 体 的 钳 含 量 平均 值 0.05 显著 性 水 平 的 区 间 估 计 。 

(3) 请 在 a=0.05 的 显著 性 水 平 下 检验 两 种 不 同 颜色 料 石 工具 的 平均 钳 含 量 是 否 
有 差别 ,请 讨论 料 石 工具 的 钳 含 量 分 析 能 和 否 估 证 工具 外 表 色 泽 对 原材料 产地 来 源 的 判 
Wio 

(4) АЕА НЕА TRS EA mAAR, HETE. 


5. 抽样 调查 测量 了 甲乙 两 地 部 分 (8 个 和 10 个 ) 聚 落 的 面积 ,记录 如 下 (为 便于 计算 ， 
表 的 最 后 2 列 列 出 ХХ ЯП EX). 
ХХ УХ? 


а е е Ге Го а Ге 9 1-е [э] 
а 9 а о | s| u| 1 |е | [е [т% [тв 


(1) 根 据 样 本 的 数据 分 别 给 出 甲乙 两 地 聚落 平均 面积 95% 置 信和 度 的 区 间 估 计 。 

(2) 分 别 在 0.05 和 0.02 的 显著 性 水 平 上 ,检验 两 地 聚落 的 平均 面积 有 无 明显 差别 ， 
如 有 ,请 对 差别 的 大 小 作出 区 间 佑 计 。 

(3) 如 可 能 请 说 明 本 题 中 检验 平均 面积 有 无 明显 差别 时 ,需要 什么 前 提 条 件 ,怎样 检 
验 或 考察 前 提 条 件 是 否 成 立 ,如 前 提 条 件 不 满足 ,有 什么 其 他 方法 来 检验 。 


6. Cottonwood River Valley 经 典 期 早晚 三 段 的 部 分 尖 状 器 的 重量 统计 如 下 : 


平均 值 (а) 


样本 标准 差 (g) 
ИЕА (в) 
样本 方差 (g) 


有 人 试图 由 尖 状 器 重量 随时 间 的 变化 来 探讨 狩猎 大 ,小 动物 的 比例 随时 间 的 变化 。 
请 用 一 元 方差 分 析 (ANOVA) 处 理 上 述 数据 并 进行 有 关 讨 论 。 
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7. 同时 期 同 地 区 三 种 类 型 聚落 的 面积 统计 如 下 , 问 三 种 类 型 聚落 的 平均 面积 有 无 显 
著 差 别 。 
类 型 A 23,18,31,14,22,28,20,22 
B 17,20,22,19,21,14,25 
С 16,11,13,10,12,10 
已 算出 对 A ОХух-178, Х,!-4162, 对 B Ух = 138, 5) x? = 2796, 
ЯС Х»х-72,Хх7-990, 


8. 分 别 用 和 荧光 分 析 XRF 和 中 子 活 化 分 析 INAA 方法 测量 了 28 ИЕ ЖЕЛДЕН ДЕ 
次 片 中 氧化 钢 含 量 。 请 在 一 定 的 显著 性 水 平 下 检验 这 两 种 方法 的 测量 数据 之 间 是 否 存 
在 系统 误差 ,如 果 存 在 差别 ,请 估计 差别 的 数值 。 还 请 用 符号 检验 方法 检验 是 否 存 在 系 
统 误差 。 测 量 数据 见 下 表 : 


XRF | 475 | 417 | 572 | 577 | 502 | 473 | 514 | 563 | 557 | 567 | 362 | 615 | 604 | 587 
INAA | 479 | 378 | 552 | 533 | 532 | 456 | 487 | 500 | 537 | 521 | 377 | 606 | 585 | 574 
XRF | 565 | 653 | 704 | 605 | 595 | 488 | 544 | 576 | 515 | 612 | 503 | 517 | 581 | 516 
ШАА | 592 | 590 | 607 | 621 | 648 | 539 | 530 | 612 | 544 | 582 | 518 | 642 | 526 | 535 


9. 请 对 本 章 第 5 题 的 数据 作 非 参数 的 秩 和 检验 ,在 一 定 的 显著 性 水 平 下 判断 ,甲乙 
两 地 聚落 的 平均 面积 有 无 显著 差别 。 


第 八 章 


1. 设 有 一 墓地 ,发 现 有 10 具 成 年 人 肯 , 请 分 别 在 a=0.1 和 0.01 的 显著 性 水 平 下 讨 
论 , 男 性 人 上 骨 要 达到 多 少 具 时 ,才能 认为 墓地 所 属 氏 族 的 男女 性 比 不 正常 (假设 人 肯 性 比 
能 代表 墓地 所 属 氏 族 的 男女 性 比 ) С ж: 先 计算 10 男 ,9 男 1 女 …… 的 概率 ,再 进行 讨 
论 )。 如 果 成 年 人 骨 为 1000 具 应 如 何 解 题 。 


2. 某 旧 石器 时 代 遗 址 随机 地 面 采 集 了 200 件 石器 ,其 中 70 件 为 燃 石 工具 ,请 分 别 以 
95% #1 99% 的 置信 和 度 估计 该 遗址 燃 石 工具 所 占 百分比 的 范围 。 如 果 要 求 对 们 石 工具 所 
占 百 分 比 的 估计 精 ( 密 ) 度 达到 + 1% ,置信 度 为 95%, 问 至 少 应 采集 多 少 片 石器 。 请 用 文 
字 准 确 地 表述 本 题 的 解 。 


3. 对 两 个 新 石器 早期 遗址 作 调 查 , 分 别 统计 了 100 件 动物 个 体 骨 名 ,人 工 饲 养 动 物 
的 比例 分 别 占 45% 和 60% ,请 在 一 定 的 显著 性 水 平 上 讨论 该 两 遗址 家 畜 人 饲养 的 发 展 水 平 
有 无 差异 。 如 有 差异 ,请 给 出 差异 的 区 间 估 计 。 


270 ”定量 考古 学 


4. 在 两 个 幕 地 分 别 统计 部 分 墓葬 ,每 地 各 统计 了 100 个 墓葬 ,发 现 甲 幕 地 有 仰 身 葬 
45 个 , 乙 墓地 有 仰 身 硬 63 个 。 问 两 个 墓地 仰 身 葛 的 比例 有 无 显著 差别 ? (a =0.05) 


5. 我 们 知道 当 п > 30 时 , 二 项 式 分 布 十 分 接近 正 态 分 布 ,请 用 U 检验 以 下 墓地 所 属 
氏族 的 男女 性 比 是 否 正常 (假设 人 骨 性 比 能 代表 摹 地 所 属 氏 族 的 男女 性 比 )。 
(1) 永昌 ,Җж= үнгеш ы ан 男 29 具 ， 女 24 具 ( 均 为 成 年 ) 
(2) ЕҢ, ЯН Ен 85, % 61 
(3) 充 州 , 王 因 大 汶 口 墓地 男 547， 女 233 


6. 某 化 石 动物 群 鉴定 了 50 个 个 体 ,未 见 到 披 毛 犀 , 你 有 多 少 的 置信 和 度 断 言 , 该 动物 
群 中 披 毛 犀 的 百分比 低 于 1% 。 如 果 你 希望 上 述 判断 的 置信 度 提高 到 95% ,至 少 应 鉴定 
多 少 个 个 体 。 а 


第 九 . 十 .十 一 章 
1. 下 面 是 某 地 旧 石 器 时 代 手 稳 的 重量 和 上 面 打 击 痕 数目 的 统计 。 请 先 画 散 点 图 (应 


怎样 选 自 变量 ) ,再 判断 手 答 重 量 和 打击 痕 数 目 间 是 否 相 关 , 相 关 强 度 如 何 , 有 什么 考古 
意义 ? 请 写 出 线性 回归 方程 。 


2. 已 知 某 地 区 存在 A,B,C 三 种 不 同 生态 环境 的 土地 ,并 各 占 面积 为 39, 83 和 14 平 
方 公里 。 考 古 调查 在 这 三 种 土地 上 依次 发 现 有 19,12 和 7 个 同时 期 聚落 遗址 。 请 判断 十 
人 对 育 落 地 点 的 选择 是 否 考虑 地 点 的 生态 环境 。 


3. 表 中 给 出 从 两 个 遗址 地 面 随机 采集 到 的 甲乙 丙 三 种 风格 陶 片 的 数目 : 


请 判断 这 两 个 遗址 甲乙 丙 三 种 风格 陶 片 的 相对 比例 在 一 定 的 显著 性 水 平 上 有 无 差 
异 , 即 “遗址 ”和 “ 陶 片 风格 组 成 ”这 两 个 变量 之 间 有 没有 关联 ,并 讨论 关联 强度 。 
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4. 调查 了 140 件 某 种 类 型 的 瓶子 , 按 其 瓶 口 和 瓶颈 形式 ,有 无 纹饰 统计 如 下 : 


п 
ге 
Кс 
B} 


на нана [на ра р |s | а 


Ж ОЯ ЭЛ СІН А, КОЕНЕК, ТУЛЖ ЖЕ, 
口 沿 和 瓶颈 之 间 关 联 强 度 的 变化 。 


5. 下 表 是 对 某 墓地 10 座 墓葬 分 别 按 它 们 的 墓穴 大 小 和 随 茸 品 的 质 和 量 排 列 的 次 
序 , 请 判断 董 穴 大 小 和 随葬 品 的 质量 之 间 是 可 相关 。 


ЕБ АІВІСІПДЕДЕ(|СІН(І| IJ 
墓穴 大 小 次 序 1|2|\з3[4]5\|6[7|8[9 [10 
随葬 品质 量 次 序 3|315161111013171819 


6. 下 面 两 表 分 别 列 出 朱 乃 诚 一 陈 铁 梅 和 朱 乃 诚 一 刘 万 对 渭南 史家 墓地 幕 莫 分 期 的 
比较 ( 见 第 十 七 章 )。 请 分 别 计算 两 表 的 GAMMA Kendall’ s ть 和 т, 等 级 相关 系数 ,并 作 讨 
论 (不 考虑 朱 乃 诚 所 定 IV 期 的 莫 芋 )。 


Ж \ 陈 铁 梅 
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下 篇 多 元 统计 分 析 


下 面 两 张 用 于 多 元 统计 分 析 的 数据 表 均 引 自 Shennan(1997) ,读者 可 以 直接 使 用 这 两 
张 表 的 数据 ,或 使 用 表 中 线性 尺度 数据 的 比值 ,也 可 以 使 用 本 书 表 14-7 和 表 15-28 的 数 
据 , 作 多 种 聚 类 分 析 -均值 分 类 和 主 成 分 分 析 , 并 对 分 析 结 果 作 比较 。 


1. 两 河流 域 乌 鲁 克 时 期 42 只 斜 边 碗 的 10 项 测量 数据 表 ,各 测量 项 目的 意义 见 附录 
图 -1。 


编号 Еа | 口外 径 内 口径 | 底 外 径 | 内 底 径 | 高 J 里 高 Жы 口 厚 口角 
1 58 160 150 | 80 | 70 |73 | 6 108 | м5 | 128 
2 57 140 130 70 65 67 62 94 111 137 
| | _ | -十 
3 55 175 155 70 70 71 бі 107 110 137 
1— - - --- 二 一 
4 58 180 170 | т 6 |% 80 106 121 154 
5 62 195 180 80 70 86 724 | 108 135 150 
6 60 165 160 | 70 65 85 78 11 | 130 159 
-+ —] ——1—— 一 上 
7 53 180 170 80 65 85 75 120 123 148 
_| | | 5 | 1 -| _| 
8 68 130 120 60 50 n | 6 | 108 104 150 
9 as | 10 | м0 mw | 6 70 55 133 | 129 | 165 
10 58 200 190 80 75 96 84 159 141 147 
5 | L me 
11 47 210 200 85 75 79 74 14 135 163 
—|— --- 
12 60 160 150 80 70 87 80 uo | 121 | 1% 
-一 | 1. 二 一 
13 55 180 170 80 80 | 88 83 109 118 160 
14 65 190 152 80 75 91 79 132 169 150 
юю вю 5 _|_ 
15 63 190 по | 75 70 89 85 137 129 155 
16 67 220 210 sæ | 75 | 18 | 105 T ias 138 | 170 
17 44 170 150 80 70 58 44 103 123 154 
4 + [一 | | 一 
18 63 185 170 75 80 80 74 117 139 148 
19 52 160 150 60 55 75 69 109 | 126 | 148 
1 _ 4 —{ 
20 62 215 | 200 90 | 85 97 | 81 138 128 133 
21 41 175 160 65 60 70 62 110 137 | 151 
| | 1 
22 47 190 170 75 80 69 58 120 129 | 148 
4 _| 
23 50 185 160 70 65 94 80 126 143 152 
| |_ 
24 55 195 180 70 65 | 85 80 130 | 129 | 151 
25 49 195 180 70 65 пө 124 102 148 
26 58 140 120 65 60 66 54 | 13 | мз 130 
——1 
27 62 170 160 65 60 % | 10 94 131 | 137 
4- 4- -| 
28 55 136 120 70 65 73 64 109 102 136 
一 | -ң 
29 53 170 160 70 | 6 78 64 123 124 135 
__| 1 一 | 4- J. 
30 бө | 175 160 70 60 83 70 112 142 155 
31 52 140 120 70 65 73 62 116 126 | 145 
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Жм | 
75 


附录 图 -1 ”两 河流 域 乌 备 克 时 期 斜 边 碗 10 项 测量 项 目的 示意 图 。1 底 角 ,2 口 沿 外 径 ,3 口 沿 内 
径 ,4 底 外 径 ,5 底 内 径 ,6 高 ,7 里 高 ,8 边 壁 厚 ,9 口 沿 壁 厚 ,10 口 沿 角 。 


2. 欧洲 中 部 地 区 新 石器 晚期 22 (Е НО 12 项 描述 其 形状 的 测量 数据 表 ( 见 附录 图 -2) 


1 2 3 4 5 6 7 8 9 10 11 12 
60.36 55.86 51.35 48.65 50.45 53.15 54.05 50.45 42.34 27.93 37.84 65.77 
41.28 37.61 35.78 36.70 39.45 43.12 42.20 38.53 33.03 25.69 38.53 77.06 
40.96 38.55 37.35 37.35 48.19 53.01 54.22 50.60 43.37 21.69 33.73 68.67 
34.88 34.88 38.37 40.75 50.00 56.98 59.30 55.81 47.67 33.72 34.88 62.79 
50.54 47.31 48.39 53.76 59.14 62.37 58.06 46.24 31.18 34.41 75.27 
47.62 41.90 39.05 40.00 41.90 44.76 45.71 42.86 36.19 20.00 36.19 70.48 

40 34.40 32.00 32.00 33.60 36.80 39.20 38.40 32.00 16.80 30.40 71.20 
40.00 36.47 34.12 35.29 36.47 41.18 44.71 42.35 36.47 17.65 36.47 72.94 

24 44.71 38.82 35.29 31.76 38.82 40.00 35.29 25.88 15.29 37.65 51.76 
.50 31.94 30.56 31.25 34.72 38.89 42.36 40.28 34.03 24.31 31.25 64.58 
.18 27.59 28.74 48.43 52.87 50.57 47.13 41.38 33.33 22.99 55.17 81.61 
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12 32.86 34.29 37.14 42.86 48.57 51.43 50.00 44.29 34.29 8.57 41.43 84.29 
13 50.75 47.76 47.76 64.18 70.15 70.15 64.18 56.72 41.79 20.90 49.25 79.10 
14 35.71 34.52` 35.71 39.29 44.05 46.43 45.24 39.29 30.95 20.24 41.67 66.67 
15 35.29 34.31 33.33 36.27 44.12 49.02 50.98 49.02 41.18 20.59 32.35 70.59 
16 37.33 36.00 36.00 45.33 54.67 61.33 62.67 60.00 48.00 21.23 37.33 78.67 
17 44.00 42.67 41.33 41.33 50.67 56.00 57.33 54.67 42.67 21.33 36.00 69.33 
18 51.39 45.83 38.89 37.50 37.50 40.28 44.44 45.83 37.50 22.22 26.39 59.72 
19 46.74 43.48 40.22 41.30 44.57 48.91 52.17 46.74 38.04 22.83 32.61 63.04 
20 32.17 32.17 31.30 33.04 39.13 43.48 44.35 42.61 35.65 21.74 34.78 62.61 
21 50.53 48.42 48.42 54.74 60.00 62.11 62.11 58.95 48.42 27.37 36.84 73.68 
22 66.15 64.42 56.92 52.31 52.31 55.38 55.38 53.85 46.15 33.85 41.54 56.92 


附录 图 -2 PENA RR RA МЕЕ R АЖ (12 个 测 
量 指标 ) 


附录 二 利用 Excel 软件 计算 几 个 常用 统计 函数 的 数值 


(一 ) 计算 排列 数 和 组 合 数 的 函数 
PERMUT(n, m) = Р" = n! ( 附 -1) 


Ысы (M -2) 
公式 中 n Ят 均 为 正 整数 。n 表示 对 象 的 个 数 ,m 表示 被 选 对 象 的 个 数 ,m < по 例如 
PERMUT(4,3) = 24,COMBIN(4,3) = 4。 
(二 ) 二 项 式 分 布 函数 
假设 单 次 贝 努 里 试验 成 功 的 概率 为 p, 失 败 的 概率 为 4, 且 P+9 = 1,0 次 实验 中 
成 功 т 次 的 概率 服从 二 项 式 分 布 Cwp"g'"…"。EXCEL 软件 的 相应 函数 为 
BINOMDIST( m, n,p, FALSE) = P| = m} = Стр" ™ ( 附 -3a) 


COMBIN(n,m) = С? = 


BINOMDIST(m, n,p, TRUE) = Plée < m} = 27 сір 40-9 ( 附 -3b) 


BINOMDIST 函数 的 自 变量 为 m, 有 2 个 参数 n,p 和 1 个 开关 参数 ， 开关 参数 选择 “ FALSE” 
或 “TRUE ”决定 函数 返回 微分 概率 或 积分 概率 。 例 如 BINOMDIST(2, 4, 0.5, FALSE) = 
0.375, BINOMDIST(2, 4, 0.5, ТӨРЕ) = 0.6875, 

(=) 正 态 分 布 函数 

正 态 分 布 函数 W (х,и, o) 是 包含 2 个 参数 y 和 o 的 函数 ,py 和 oa? 分 别 代 表 正 态 函 数 
的 数学 期 望 值 和 方差 。 正 态 分 布 ЕН 


№ х,и,0) = f(x) = 7 е 
EXCEL 软件 的 相应 函数 为 
МОВМРІЅТ( х, м, с, FALSE) (Ё -4a) 
返回 函数 的 数值 f(x), 即 返 回 概率 密度 值 。 和 
NORMDIST(x, м, о, TRUE) (ІҢ -4b) 


返回 函数 的 积分 值 | ——e dx, 即 返回 累积 概率 Pi- o < Е < xlo NORMDIST 
-e (/ ло 
函数 中 需 对 开关 变量 赋值 ,“FALSE” 或 “TRUE”。 

EXCEL 软件 还 提供 正 态 分 布 沙 数 的 反 函 数 , 即 已 知 累积 概率 P|- о < ё < xj 计算 
«В. 

МОКМІМУ( ЖЕНЕ Р, и, о) ( 附 -5) 

返回 对 应 的 x 值 。 

EXCEL 软件 的 内 部 函数 中 包含 w = 0,c = 1 的 标准 型 正 态 分 布 函数 及 其 反 函 数 , 它 
们 是 
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NORMSDIST( x) ( 附 -6) 
返回 累积 概率 P|- © < Е < xj。( 对 于 标准 型 正 态 分 布 函数 ,EXCEL 软件 不 能 计算 概率 
密度 值 ,相当 于 NORMDIST 函数 中 的 开关 值 永远 是 “TRUE”)。 

NORMSINV( 累 积 概率 值 Р) ( 附 -7) 
返回 对 应 的 x 值 。 例如 NORMSDIST(0) = 0.5, NORMSINV(0.975) = 1.96 
(四 ) £ 分 布 函 数 
i 分布 函数 的 分 析 表 达 式 f(x) 比较 复杂 , 它 只 有 一 个 参数 - 自由 度 dr。EXCELI 软件 
提供 的 函数 为 ， 

TDIST(x , 47,1) ( 附 -8a) 

TDIST(x , 47,2) ( 附 -8b) 
式 中 的 "1" 和 "2" 为 开关 值 。 这 两 个 式 子 分 别 返 回 单 边 或 双边 的 累积 概率 值 Р|-е<6 
< х} RO- Р|-х< & < x|)。t 分布 的 反 函 数 为 


TINV( 双 边 的 累积 概率 值 , df) ( 附 -9) 
返回 对 应 的 x {Н 
例如 TDIST(1.96,6,2) =0.0977,TDIST(1,96,6,1) =0.0488, TINV(0.977,6) = 1.96。 
(Ж) X 分 布 函数 


好 分 布 函 数 与 г 分布 是 数 相 似 ,只 有 一 个 参数 - 自由 度 df。 相 应 的 EXCEL 内 部 函数 
有 
CHIDIST( x , df) ( 附 -10) 


返回 у ХР a 的 尾部 累积 概率 ( 当 函 数 的 自由 度 为 df 时 ) Pix? > x| = [FOD d R 
яаж 


CHIINV( 尾 部 累积 概率 值 P, df) ( 附 -11) 
返回 对 应 于 尾部 累积 概率 为 已 时 的 * 值 。 例 如 CHIDIST(10,6) =0.125, 和 CHIINV(0.125， 


6) =9.991。 
(六 ) ЕЖ 
五 分 布 函数 是 双 参 数 函 数 , 两 个 参数 分 别 为 第 一 自由 度 ( 分 子 自由 度 ) dfl 和 第 二 自 
由 度 ( 分 母 自由 度 ) df2。 相应 的 EXCEL 内 部 函数 是 | 
FDIST( x , 41,42) (Ё -12) 


返回 FKF ВЕЖ (АУА Н ФІЖ а/2})Р{Е >x} = | mar。 


相应 的 反 函 数 为 

FINV( 尾 部 累积 概率 值 P, ау, df2) ( 附 -12) 
返回 对 应 于 尾部 累积 概率 为 已 时 的 x 值 。 例 如 FDIST(10,2,6) = 0.0123 和 FINV (0.0123, 
2,6) =9.996。 
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附录 三 
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0.62 
0.64 
0.66 
0.68 
0.7 
0.72 
0.74 
0.76 
0.78 
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Ф(2) 
0.7324 
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Ф(7) 
0.8925 
0.8962 
0.8997 
0.9032 
0.9066 
0.9099 
0.9131 
0.9162 
0.9192 
0.9222 
0.9251 
0.9279 
0.9306 
0.9332 
0.9357 
0.9382 
0.9406 
0.9429 
0.9452 
0.9474 
0.9495 
0.9515 
0.9535 
0.9554 
0.9573 
0.9591 
0.9608 
0.9625 
0.9641 
0.9656 
0.9671 
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Ф(2) 
0.9686 
0.9699 
0.9713 
0.9726 
0.9738 
0.9750 
0.9761 
0.9772 
0.9798 
0.9821 
0.9842 
0.9861 
0.9878 
0.9893 
0.9906 
0.9918 
0.9929 
0.9938 
0.9946 
0.9953 
0.9960 
0.9965 
0.9970 
0.9974 
0.9978 
0.9981 
0.9984 
0.9987 
0.9998 
1.0000 
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附录 四 


Pllil>ts|=a 
.001 0.005 0.01 
.58 127.32 63.656 
600 14.089 9.9250 
924 7.4532 5.8408 
6101 5.5975 4.6041 
8685 4.7733 4.0321 
9587 4.3168 3.7074 
4081 4.0294 3.4995 
0414 3.8325 3.3554 
7809 3.6896 3.2498 
5868 3.5814 3.1693 
3178 3.4284 3,0545 
1403 3.3257 2.9768 
0149 3.2520 2.9208 
9217 3.1966 2.8784 
8496 3.1534 2.8453 
7922 3.1188 2.8188 
7454 3.0905 2.7970 
7067 3.0669 2.7787 
6739 3.0470 2.7633 
6460 3.0298 2.7500 
5911 2.9961 2.7238 
5510 2.9712 2.7045 
4960 2.9370 2.6778 
4602 2.9146 2.6603 
4164 2.8870 2.6387 
3905 2.8707 2.6259 
2906 2.8071 2.5759 


t 分 布 临界 值 表 ( 双 侧 ) 
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‚706 
-3027 
. 1824 
-77165 
‚3706 
‚4469 
‚3646 
.3060 
.2622 
.2281 
. 1788 
.1448 
.1199 
.1009 
.0860 
‚0739 
.0639 
.0555 
0484 
.0423 
.0301 
‚0211 
‚0086 
‚0003 
‚9901 
‚9840 
‚9600 
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